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Tema 0: Revisión de conceptos 
Medidas de dispersión Gráfico Box-Plot 








MEDIANA | —— Recorrido Intercuartílico 

















outlier 





Varones Mujeres 











Citation Reports 


actor Box Plot 


pact Factor box plot depicts the distribution of Impact Factors for all journals in the category. The horizontal line that forms the tc 
he 75th percentile. The horizontal line that forms the bottom is the 25th percentile. The horizontal line that intersects the box is t 
Factor for the category. The cross represents the mean value. 


ital lines above and below the box represent maximum and minimum values that are no more than 1.5 times the span of the inte 
which is the range of values between the 25th and the 75th percentiles. These lines are commonly referred to as "whiskers." 


n circle represents an outlier, which is a single value greater or less than the extremes indicated by the whiskers. 
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outlier 


whisker 







75th percentile 
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whisker 


INFERENCIA 


¿Cuánto vale la media de una población” 





A partir de los datos 


u=30 











29.5sus30.5 


Con una confianza del 68% 











28.5sus31.5 
Con una confianza del 99% 











INTERVALO CONFIANZA 







E dispersión 
1 S < 
E ag 
u 

/ vn — 


tamaño muestra 








Nivel de confianza 


El 95% de los intervalos 
contiene la verdadera 
media de la población. 
El 5% no lo contienen 











Mas información en 


O 
MN, MPVS ViRTVAL 


adium > AULA VIRTUAL BIOESTADÍSTICA » Participantes > MARIA PURIFICACIÓN GALINDO VILLARDON 


Se ha creado un usuario anónimo con acceso de estudiante a esta asignatura: 


t. Nombre ce usuario: anon2541 
2, Contraseña: de352694 


Continuar 
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DE 
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Tema 0: Repaso tablas Contingencia 





e HIPOTESIS DE PARTIDA: Ho 
Las dos variables en estudio 


son independientes 


e HIPOTESIS ALTERNATIVA: Ha 


Las dos variables en estudio 
están relacionadas 











lo: 


Tabla de Un ejem observadas 


"| 7 | 28 us i] 
| 15 | 20 | 35 |? 


w 3090 | 
[ss us 











¿Cómo se contrasta? 


e Partimos de una tabla + Se calculan las 


de frecuencias frecuencias que cabría 

observadas esperar si las dos 
variables fueran 
independientes 





fe ij= (Total fila i-ésima) (Total columna j-ésima) / Total global 














Nuestro ejemplo: 
s obse 


Tabla de frecuenc rvadas 


| || Peor | Igual | Mejor | TOTAL | 


O l 


= | 5% 


Totar | 3 | 





fo, =7 fe, = (150x37)/ 560 = 9.91 
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TABLA DE FRECUENCIAS 
ESPERADAS 


—reor | Igual | Mejor | TOTAL 
09 
7 


Trat 1 


7 | 
Trat 2 
Trat 3 
Trat 4 
poni 























CÓMO MEDIR LAS DISCREPANCIAS 


eSe calcula la diferencia entre ambas 
magnitudes (fo; - fe;,), para todas y cada una 
de las casillas de la tabla. 


Estadigrafo de contraste 


fe; T frecuencia esperada para la ij-ésima casilla. 





. Rechazaremos H, cuando %? experimental > y? crítico 


GRADOS DE LIBERTAD: ( N° filas-1) (N° Columnas -1) 


fo; = frecuencia observada para la 1j-ésima casilla. 








En el ordenador, al lado del valor experimental, 
(suma de discrepancias entre frecuencias observadas 
y esperadas), aparece el p-valor 





Si el p-valor es menor de 0.05, rechazamos Ho 
y aceptamos la Ha. Si p-valor > 0.05, NO 











CALCULO DEL VALOR EXPERIMENTAL 





TABLA DE LA JI-CUADRAD 














0.9950 0.9750 0.950 0.900 0.200 0.10 O50 0.025 0.010 0.001 

1 0.0000393 0.000982 0.00393 0.0158 1.642 2.706 3.441 5.024 6.635 10.828 

2 0.010 0.0506 0.103 0.211 Sl) 4.605 5.991 7.378 9.510 13.816 

3 0.0717 0.216 0.352 0.584 4.642 6.251 7.861 9.348 11.345 16.266 

4 0.207 0.484 0.711 1.064 5.989 7.779 9.488 1.143 Sta 18.467 

5 0.412 0.831 1.145 1.610 7.289 9.236 11.070 12.833 15.086 20.515 

6 0.676 1.237 1.635 12.59 14.449 16.812 22.458 

a E 167 2.833 9.803 12.017 14.067 16.013 18.475 24.322 

8 1.344 2.180 2.733 3.490 11.030 13.362 15.507 17.535 20.090 26.124 

9 1.735 2.700 3.325 4.168 12.242 14.684 16.919 19.023 21.666 27.877 

10 2.156 3.247 3.940 4.865 13.442 15.987 18.307 20.483 23.209 29.588 

11 2.603 3.816 4.575 5.578 14.631 Wars 19.675 21.920 24.725 31.264 
. . Zine 12 3.074 4.404 5.226 6.304 15.812 18.549 21.026 
> Aplicado a nuestro ejemplo el resultado sería: 13 | 3565 5009 5.892 7042 16985 19812 22362 
14 4.075 5.629 6.571 7.790 18.151 21.064 23.685 
15 4.601 6.262 7.261 8.547 19.311 22.307 24.996 

16 5.142 6.908 7.962 9.312 20.465 23.452 26.296 5 z 3 

2 2 17 5.697 7.564 8.672 10.085 21.615 24.769 27.587 30.191 33.409 40.790 

18 6.265 8.231 9.390 10.865 22.760 25.989 28.869 31.526 34.805 42.312 

X 2 — 99 115- 115 T 19 6.844 8.907 an 11.651 23.900 27.204 30.144 32.852 36.191 43.820 

= =f ... + = 13 87 20 7.434 9.591 10.851 12.443 25.038 28.412 31.410 34.170 37.566 45.315 

exp 21 8.034 10.283 11.591 13.240 26.171 29.615 32.671 35.479 38.932 46.979 

Q 91 115 71 22 8.64 0-982 12.338 14.041 27.301 30.813 33.924 36.781 40.289 48.268 

23 9.26( B 13.091 14.848 28.429 32.007 35.172 38.076 41.638 49.728 

24 9.884 D AS 

25 | 10st 13.87 > 12.59 => p-valor <0.05 | sze 

26 11.160 p 54.052 

P e 27 11.808 16.151 18.114 32.912 36.741 40.113 43.195 46.963 55.476 

e 28 12.461 15.308 16.928 18.939 37.916 41.337 44.461 48.278 56.892 

f | e C O Í | cl l | 1 Í ; j O S ) 29 13.121 16.047 17.708 19.769 35.139 39.087 42.557 45.722 49.588 58.301 

l, ) i 30 13.787 16.791 18.493 20.599 36.250 40.256 43.773 46.979 50.892 59.703 
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Tablas poco ocupadas: 





Problemática de trabajar con 
frecuencias relativas /porcentajes: 


Las tablas de contingencia con frecuencias bajas o nulas 
llevan a cometer error de tipo 1. 


Este tipo de tablas produce una frecuencia teórica muy baja, 
que distorsiona el resultado y lleva a rechazar Ho. 





Las tablas de contingencia trabajadas sobre porcentajes 
pueden llevar asociadas aceptaciones indebidas de la 
Hipótesis nula; es decir pueden llevarnos a suponer que 
dos variables son independientes cuando en realidad están 
relacionadas. 

(Incremento en el Riesgo Tipo II) 


Frecuencias relativas /porcentajes: 


Las tablas de contingencia trabajadas sobre porcentajes pueden 
llevar asociadas aceptaciones indebidas de la Hipótesis nula; es 


decir pueden llevarnos a suponer que dos variables son 
independientes cuando en realidad están relacionadas. 
(Incremento en el Riesgo Tipo II) 




















Y ahora con el SPSS... 
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¿Cómo meter los datos? 


TABLA.sav - SPSS Editor de datos 

Archivo Edición Yer Datos Transformar Analizar Gráficos Utilidades ventana 
slala El |+| =| A Fl] ALIA]! el 
15: DIAGNÓSTICO 


DOSIS DIAGNÓSTICO | FRECUENCIAS | 
1[TRATAM_1 





Datos 


e Como tabla de contingencia ya 
construida. 








1_PEOR 7 

2|TRATAM_1 2 IGUAL 28 

—4 TRATAM_1 [3 MEJOR 115 

4|TRATAM_2 1_PEOR 15 

S|TRATAM_2 (2 IGUAL 20 

Igual Mejor 6 TRATAM 2 3_MEJOR 85 
7|TRATAM_3  1_PEOR 10 

28 115 B|TRATAM.3 [2 IGUAL 30 
O|TRATAM_3 (3 MEJOR 90 

20 | 85 — 1_PEOR 5 
MÍTRATAM 4 |2 IGUAL 40 





Tabla de contingencia DOSIS * DIAGNÓSTICO 


Recuento 
O ttn aa 
1 PEOR | 2 IGUAL MEJOR Total 
7 28 


DOSIS TRATAN 1 
TRATAM 2 
TRATAM 3 
























TRATAM 4 











Analizar 





¿Cómo realizar el análisis? 



















Informes >| 
Estadisticos descriptivos > Frecuencias... 
Tablas » Descriptivos. .. 
Comparar medias » Explorar... 
Modelo lineal general » Tablas de contingencia. .. 
Modelos mixtos » Razón... 
Correlaciones > EM Tablas de contingencia 
Regresión » ; 
Loglineal , @ FRECUENCIAS ds 
Clasificar > D] ADA Pegar | 
Reducción de datos » 
Escalas » Poles _Restablecer | 
Pruebas no paramétricas > ¡RESPUESTA Cancelar | 
Series temporales » [4] Ads | 
Supervivencia > 

> Capa 1 de 1 


Respuesta multiple 





MM Ponderar casos 


$ artículo 
$ años 








(No ponderar los casos Aceptar 


@ Ponderar casos mediante Pegar Mostrar los gráficos de barras agrupadas 


Variable de frecuencia: 


Restablecer s o 
EI oO in Suprimir tablas 


Cancelar 
Exactas... | Estadistit os... ( asidlas + mato... | 


Estado actual: No ponderar casos Ayuda 
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Tabla de contingencia DOSIS * DIAGNOSTICO 


s DOSIS TRATAM 1 
Casillas TRATAM_2 
TRATAM_3 

TRATAM_4 


Frecuencias 0 Recuentos 





Frecuencias Continuar 


V Observadas 
| Esperadas 


| Ayuda | 


Tabla de contingencia DOSIS * DIAGNÓSTICO 


DIAGNO O 


1 PEOR | 2 IGUAL |3 MEJOR | Total 
TRATAM 1 


TRATAM_2 i 
TRATAM. 3 
TRATAM. 4 




















Tabla de contingencia DOSIS * DIAGNOSTICO 
% de DOSI 
DOSIS TRATAM 100,0% 
100,0% 


Porcentajes 100,0% 
100,0% 
100,0% 









| Tablas de contingencia: Mostrar en las casi 





Tabla de contingencia DOSIS * DIAGNÓSTICO 


% de DIAGNÓ O 
eso — 

1 PEOR | 2 IGUAL |3 MEJOR | Total 
DOSIS TRATAM 1 


E 18,9% 23,7% 28,4% 26,8% 
TRATAM 2 40,5% 16,9% 21,0% 21,4% 
TRATAM 3 27,0% 25,4% 22,2% 23,2% 
F Columna TF Tipificados TRATAM_4 13,5% 33,9% 28,4% 28,6% 
l Total TF Tipificados co 100,0% 100,0% 100,0% 100,0% 


Frecuencias 
IV Observadas 


| Esperadas 












Porcentajes Residuos 





mm No tipificados 








Ponderaciones no enteras 


Tabla de contingencia DOSIS * DIAGNÓSTICO 
(© Redondear frecuencias de casillas © Redon 


© Truncar frecuencias de casillas © Trunca 
© No efectuar correcciones 





TRATAM_2 
TRATAM_3 
TRATAM_4 












Informes 
Estadísticos descriptivos 
Tablas 

Comparar medias 
Modelo lineal general 
Modelos mixtos 
Correlaciones 

Regresión 

Loglineal 

Clasificar 

Reducción de datos 
Escalas 

Pruebas no paramétricas 
Series temporales 
Supervivencia 
Respuesta múltiple 












Frecuencias... 
Descriptivos. .. 
Explorar... 


Tablas de contingencia... 


Razón... 
W Tablas de contingencia 


Filas: 
@ FRECUENCIAS sa 


0] h DOSIS E 


Restablecer 
Columnas: 


[Al DIAGNÓSTICO Cancelar 
KI Ayuda 


-Capa 1 de 1 


Te 








v YV Y roreyTyrTroarorr FF F FRA Y 


Anterior 


Siguiente 


| o 


[Mostrar los gráficos de barras agrupadas 
























[Suprimir tablas 


Formato... | 











Tablas de contingencia: Estadisticos 


PS f 
= - | 
et A 
SS 
` 












K Chi-cuadrado A f 2 
Nominal 2 ( Y jo eij) 
l Coeficiente de conting 


.. Estadísticos ~ 


pa 


- 
~ A 
SS ES? 
zsa a 






appa 
Riesgo 
M McNemar 


T Eta 









[ Estadísticos de Cochran y de Mantel-Haenszel 
Contrastar la razón de ventajas común igual a: fi 














Pruebas de chi-cuadrado 








P-valor 


Chi-cuadrado de Pearson 
Razón de verosimilitud 
N de casos válidos 


a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. 
La frecuencia mínima esperada es 7,93. 


En el ordenador, al lado del valor experimental, aparece el p-valor 


El p-valor nos indica el riesgo que corremos al rechazar la Ho 


(independencia) después de haber explorado los datos. 














GRADO DE ASOCIACION 












[X Chi-cu 


Nominal 









Sy | Correlaciones 


Ordinal Cancelar 


Gamma 
Ayuda 


Coeficiente de contingencia. Medida de asociación basada en chi- 
cuadrado. 






El valor está comprendido entre O e I (número de dimensiones de la 
tabla). 






0<CC<I 





*El valor O indica que no hay asociación entre la fila y la 


columna. 
«Los valores cercanos a I indican que hay gran relación entre las 


variables. 


I= Dimensión de la tabla 







Coeficiente de Contingencia (CO): (Basado en el Chi-cuadrado) 
Nominales 
Tabla cuadrada 
Rol simétrico 


2l 





Tablas de contingencia: Estadisticos 





| Chi-cuadrado | Correlaciones Continuar 


Nominal "9 Ordinal E 
| Coeficiente de contingencia =| Gamma 


Ayud 
X Phi y ¥ de Cramer | dde Somers ae 
md | Tau-b de Kendall 


V de Cramer :(Basado en el Chi-cuadrado) 





unl 





jumbe. |  Tau-c de Kendall 


Nominales 
| Kappa 
| Eta | Riesgo 
> ‘a | McNemar 
N | Estadísticos de Cochran y de Mantel-Haenszel 
Phi : (Basado en el Chi-cuadrado) DN 


Nominales 


Dicotómicas 
22 











Igual 
































5 Residuos > 
Casillas 28 
20 
Tabla de contingencia DOSIS * DIAGNOSTICO rat 30 
40 
O e: O O 
1 PEOR PEOR „2 IGUAL | IGUAL ama: Mostrar en las casillas 
a , i ; : 
TRATAM 3 , l 
TRATAM_4 ; , ; Cancelar | 
ipificad Ayuda | 


DIAGNO 0 Residuos 


Ll pjAaGNÓSTICO 7/3 
7 No tipificados 


DOSIS TRATAM_1 -,9 -,6 ,6 
TRATAM_2 2,5 -1,1 -,2 


TRATAM 3 5 5 -4 f Tipificados corregidos 
TRATAM_4 -1,7 1,1 -1 


ics de casillas © Redondear ponderaciones de casos 





| Tipificados 





c 2 casillas (C Truncar ponderaciones de casos 


ones 


TRATAM 2 
TRATAM_3 
TRATAM_4 

















Mas información en 


(i 6 - 
1) MM. MPVS ViRTVAL 


adium > AULA VIRTUAL BIOESTADÍSTICA > Participantes > MARÍA PURIFICACIÓN GALINDO VILLARDÓN 








Se ha creado un usuario anónimo con acceso de estudiante a esta asignatura: 


i. Nombre ce usuario: anon2541 
2, Contraseña; de352694 


Continuar 

















Universidad de Salamanca 
Departamento de ESTADISTICA 


M. P. Galindo Villardon 


pgalindo@usal.es 





Tema 0: Repaso Contratses de Hipótesis 


Contrastes de hipotesis 


1. Hipótesis nula (H,), Hipótesis alternativa (H,) 
2 .Nivel de significación (a) 


3 Estadístico de contraste (Z, t, ...) 


4. Región crítica y región de aceptación (RC y RA) 


5. Conclusiones (estadísticas y no estadísticas: médicas, 


biológicas, económicas, etc.) 











Contrastes de hipótesis 


> Nivel de significación (a) 
Probabilidad de cometer error 
tipo |, es decir, probabilidad de 

rechazar la hipótesis nula siendo 
cierta. Habitualmente 1%, 5%. 


Hipótesis cierta 





Rechazo Ho Error tipo 1 Correcto 
Potencia (1-8) 
Resultado de (a) i 
la prueba 
estadística 


Acepto Ho Error tipo II 
($) 











CONTRASTE PARA LA IGUALDAD DE MEDIDAS 
| DE TENDENCIA CENTRAL 


UE] Graphs Utilities Add-o1 
Reports >i 
Descriptive Statistics i 
Tables 















eneral Linear Mode 
Generalized Linear Models 
Mixed Models t One-Sample T Test... 
Correata {, Independent-Samples T Test... 
Regression t Dai 
Loglinear ih, Paired-Samples T Test... 


M Means... 









Neural Networks > 
Classify 
Data Reduction 


M. GRANDES 















Survival 
BB Missing Value Analysis... 
Multiple Response 

Complex Samples > 


> 
Quality Control > INDEPEND. 
DEPEND. 
(apareados) 
















[A] ROC Curve... 


NORMALES 
NO 
NORMALES 










M. PEQUEÑAS 







TIPO DE 
DATOS 














Sexo-peso DATOS 


INDEPENDIENTES APAREADOS 
o peso | voca | varooooz | vatoora 





























Gráficos Utilidades Ventana ? 1 
Informes > 2 
Estadisticos descriptivos > : 
Tablas » z 
Comparar medias > 5 
Modelo lineal general » - 
Modelos lineales generalizados > 8 
Modelos mixtos > 9 
Correlaciones > 10 
Regresión > 11 
Loglineal » 12 
Clasificar > 13 
Reducción de datos » 14 
Escalas > 74l = 
Pruebas no paramétricas Chi-cuadrado... 17 
Series temporales Binomial... 18 
Supervivencia 19 
Respuesta múltiple K-S de 1 muestra... 20 
Análisis de valores perdidos... 2 muestras independientes... 21 
Muestras complejas K muestras independientes... 22 


Control de calidad > 2 muestras relacionadas... 
Curva COR... K muestras relacionadas... 






























Data Transform JUEZ Graphs Utilities Add-ons Window Help = 


Descriptive Statistics . 
Tables 








T-TEST GROUPS=Sexo(1 2) 












































a > 
/MISSING=ANALYSIS & e» su a ieee Compare Means M Means... 
(y (y aa | nde pe n de n t -S2 m p le Ss 7 Test L| /VARIABLES=Peso = = paleo ery et eR K k PEA Chairs T Test... 
peme  ——_— --MAA4A4444  _ _ _ /CRITERZA*CZ( 9500). = So ee DESTACAN 








var 
Regression _— »>--=> 
= p 


Test Variable(s): ( Options... ) E = ove 
3 varén 72,00 Neural Networks 
L PESO [Peso] | 5 varón 70,00 | Data Reduction [ 
| 6 mujer 56,00 _ Scale E 
» T-Test A janie 65,00 _ Nonparametric Tests 
| 8 kerd aoo - Time Series E 
F] | + mue an — Survival E 
i m ats - [8 Missing Value Analysis... - 
Fl | 12 mujer 66,00 - Multiple Response 
13 mujer 55,00 Complex Samples F 
[Dat asetd ] 14 mujer 44,00 | Quality Control E 
+ | 15 varón 66,00 | ROC Curve... 
| 16 mujer 56,00 ee a LAA 
17 mujer 44,00 
FT l 18 val 70,00 
å 19 varé 80,00 BO Independent-Samples T Test El 
a varó a 
= tat rer varón i Test Variable(s): E 
. i Group Statistics | mit $ PESO peso i 
Grouping Variable: a a Él 
v E 
Sexo(? ?) g Std, Std. Error f 
RO Deviation Mean i 
si : 


so 
70,00 


vyv vvvvvvvvvvv 





























































Define Groups... 










Grouping Variable: 
Define Groups... 
j - - © Use specified values 


Le) seen - 
Group 1: 1 


Group 2: 


O Cut point: 


@) Use specified values 


Group 1: 1 
(Cents 






Levene's Test for Equality of 
Variances 


Group 2: | 2 


O) Cut point: 














Std. Error 
Difference Difference 





@ Camel) Comino) 
4 


PESO Equal variances 
assumed 15,65035 2,56601 


Equal variances not 
assumed 





15,65035 2,61252 




















DATOS 


APAREADOS 








Graphs Utilities Add-ons Window Help 


3 [| pesoantes | pesodespues 





| Reports > ara políticos.sav [DataSet0] - SPSS Data Ed 70 
Descriptive Statistics 


Tables ; a è ON | Y) á 7 











Compare Means di Mi Means... 08 
General Linear Model > t One-Sample T Test... 88 
Generalized Linear Models > & Independent-Samples T Test... 66 
Mixed Models » | [E Palred-Samples T Test. | 67 
Correlate p 8 mE 
Regression > 55 
Loglinear p 82 
Neural Networks > 53 
Classify be 77 
Data Reduction P 75 
Scale Paired Variables: 65 
Non parametric Tests Pair Variablel Variable2 67 
. f $ PESO [Peso] 1 $ [pesoan... |} [pesod... 

16 $ VARO0001 - 

17 $ VARO0002 

18 $ VARO0003 

$ pesoantes y] 

19 S pesodespues — 

20 

21 

22 

23 

24 ©) Reset ) ( Paste — 





65 
82 
70 
88 
89 


60 
80 
60 
80 
50 
75 
79 
67 
60 





| 


DATOS 


APAREADOS 











Graphs Utilities Add-ons Window Help Pa otra 





Reports > ara políticos.sav [DataSet0] - SPSS Data Ed | 70 65 
Descriptive Statistics > F EN] | pp 80 82 
Tables > FH ¿la HS ON wa Y 76 70 
Compare Means di Mi Means... 08 25 
General Linear Model » t One-Sample T Test... 88 89 
Generalized Linear Models » & Independent-Samples T Test... 66 665 
Mixed Models » aa Palred-Samples T Test... 67 60 
= T-Test 


[DataSet0] 


Paired Samples Statistics 


Ti Ps ee 
Deviation Mean 





Pair 1  pesoantes 74,60 13,674 3,531 
pesodespues 111.33 15 153,592 39.657 
Paired Samples Correlations 


PN Correlation | Sig. | 


Parl | Besodespue | is | -109 | 699 
pesodespues 15 -,109 


Paired Samples Test 












Paired Differences 


95% Confidence Interval of | 
the Difference 
Deviation Mean Lower Upper tailed) 


m -36733 | assi67s | sonos | -122,943 | 49.477|] -914 | na| 37e 
amorr -36,733 155,675 40,195 -122,943 49,477 -,914 14 ,376 














CONTRASTE PARA LA IGUALDAD DE MEDIDAS 
DE TENDENCIA CENTRAL: MEDIANAS 


U de 


INDEPEND. 
Mann-Withney 


TIPO DE 
DATOS 


DEPEND. 
(apareados) 


Wilcoxon 


















Tests NO PARAMETRICOS 
Datos NO NORMALES 










eWilcoxon 










rabajan sobre rangos de ord 


O 
on menos potentes 

















CONTRASTES NO 
RAMÉTRTCOS 


Graphs Utilities Add-ons Window Help 


Reports b 
Descriptive Statistics 
Tables 

Compare Means 

General Linear Model 
Generalized Linear Models 
Mixed Models 

Correlate 

Regression 

Loglinear 

Neural Networks 

Classify 

Data Reduction 

Scale 

Chi-Square... 

Time Series Di] Binomial... 

Survival Runs... 

Missing Value Analysis... [Āā] 1-Sample K-S... 

Multiple Response á 2 Independent Samples... 
Complex Samples p K Independent Samples... 
Quality Control P 2 Related Samples... 

ROC Curve... K Related Samples... 


dei” ay 


















1] V YY YYYY YYY V V V. 


vv 


Vv 
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LUNAS Graphs Utilities Add-ons Window Help 
Sexo-peso Reports > œ 

















Descriptive Statistics > 
Tables > i r 
INDEPENDIENTES M Means... | 
General Linear Model > t One-Sample T Test.. 
Generalized Linear Models > & Independent-Sample 
RO Mixed Models > aù, Paired-Samples T Te 
Correlate > F, One-Way ANOVA... 
Regression > 
Test Variable List: 
$ PESO [Peso] — 
& VAROOOO2 
SL VARO0003 [>] 


S pesoantes 
$L pesodespues 
LS VAROO004 Grouping Variable: 
“> [Sexo(1 2) 














$) EDAD [EDAD] 
S PESO [PESO1] 





(Define Groups... 3 
| [M Mann-Whitney U C Kolmog>rov-Smirnov Z 
| l Moses extreme reactions [ | Wald-Wblfowitz runs 


[DataSet0] /Users/puri/Desktop/pesos clase para politicos.sav 


ME mann-whitney Test 


oon ows. uy nn 














NPar Tests 


ce ln | Mean Rank | Sum of Ranks | 
=» | PESO varón 13 17,62 229,00 
mujer 11 6,45 71,00 
Total 24 


Test Statistics 

















Mann-Whitney U 5 
Wilcoxon W 71 


zZ - "867 
[ave Si amare | 0000 |_| 


a. Not corrected for ties. 
b. Grouping Variable: GENERO 











ANOVA 


Analisis de la varianza 


Dra. Purificación Galindo Villardón 
pgalindo@usal.es 


Y si hay mas de dos Grupos...? 


e Fijemos a= probabilidad de rechazo indebido de Ho 


& = P( Ao = 44 = u = Us cierta, pero rechazamos alg uno 
de los contrastes por parejas ) = 
=1-P(H, = 4 = 1 = uz cierta y aceptamos todos los 


contrastes por parejas )=1- 0.95% = 0.1426 = 0.05 











T de STUDENT 


grupos comparaciones riesgo tipo I 


0,05 
0,1426 
0,2649 
0,4013 
0,5367 
0,6594 
0,7622 
0,8422 


0,9006 05 15 25 35 45 55 65 75 85 
comparaciones 


0,9405 
0,9661 
0,9817 
0,9906 
0,9954 


95 105115125 








Se compara la variabilidad dentro de los grupos 
con la variabilidad entre los grupos y se buscan 
los valores críticos con una F de Snedecor. 




















Analyze 


TRAT Valores 
1,53 
1,61 













Descri 


Graphs Utilities Add-ons Window Help 


Reports F 


ptive Statistics 























Pp 
1 
1 3,75 k 
7 2.89 Tables d 
13,26 M Means... 
2 3,15 _ General Linear Model P t One-Sample T Test... 
2 3,96 Generalized Linear Models l t Independent-Samples T Test... 
- = Mixed Models P ats, Paired-Samples T Test... 
= an Correlate e F One-Way ANOVA... 
2 1,56 Regression > — a 
3 2,89 Loglinear > 
3 2,68 Neural Networks b Hei le on 
: a Classify e ee NE 
3 475 Data Reduction > A, : 5, j / u; # u; 
3 4,33 Scale b 
4 3,89 Nonparametric Tests le 
4 3,64 . 
4 5,36 
4 3,33 
4 6,82 Fuente Suma de .l. |Estimador 
4 3,26 cuadrados 
4 5,10 
; si Entre Cate ae 
5 3,69 
5 4,49 Residual Qr =39,501 
5 5,81 
5 703 Total A 
5 
5 





Tratamiento 

Dı D2 ¡DE Da 
153 315 259% 359 
1,61 3,96 2,68 3,64 
3,75 3,59 4,70 5,36 
2,89 189 462 3,33 
3,26 145 4,79 6,82 
1,56 433 3,26 

5,10 


Suma de g.l. |Estimador| Fexp 
cuadrados 
Qr =32,494 re 8,123 5,540 


-valor 

Residual =39,501 1,466 
esidua Qr =39, ) =0,0022 
ails a O O 




















Tratamiento TRAT Valores 


Dı D2 D3 





1,53 
1,61 
3,75 
2,89 
3,26 
3,15 
3,96 
3,59 
1,89 
1,45 
1,56 
2,89 
2,68 
4,70 
4,62 
4,79 
4,33 
3,89 
3,64 


D4 Ds | 





Name Type | Width | Decimals) Label 


MITE Nurerie 8 0 TRATAMIENTO 


Valores = Numeric 8 2 RESPUESTA 





5,36 
3,33 
6,82 
3,26 
5,10 
3,86 
3,46 
3,69 
4,49 
5,81 
7,03 
5,49 


Values | Missing | Columns | Align Measure 
Dl}. Ne 8 Agh Ordinal 
None None Right Y Scale 





wu uw ww MN uw uw wm bh SS A SH HSH £ WW uy uy uy uy A NI NNN NR eR hh 








Se compara la variabilidad dentro de los grupos 
con la variabilidad entre los grupos y se buscan 


los valores criticos con una F de Snedecor. 














One-Way ANOVA Ñ One-Way ANOVA: Post Hoc Multiple Com 


Dependent List: (Contrasts, ] | Equal Variances Assumed 


M LSD H | Waller-Dunca 
Peso ( Post Hoc... | 5 
— — | M Bonferroni 
Options... 
— a | | Sidak 


| | Scheffe 


|_| Tukey's-b Mi Dunnett 


™ Duncan Control Catego 


Factor: |_| Hochberg's GT2 Test 
Tratamiento Cabriel @ 2-sided 


INFERENCIA ESTADÍSTICA 





Tests tras 


= As Ho es cierta 
— r’ 


ÍN-r Ho Y; > uj (1 a la Li y tah) 





HA: UU; 


OrukEY =0/r r= n° grupos 
OBONFERRONI = 4 /[r(r=1)/2 | 


tur 


_c— a a O 
LSD $ BONFERRONI 


sss 
Más conservador (penaliza más) 

Más difícil encontrar diferencias 
Mayor protección frente al error tipo I 














ANOVA DE DOS VIAS CON INTERACCIÓN 


Enfermedad 





Esquizofrénicos 





Depresivos 



















EJEMPLO 


a pe 
cuadrados 

fe NECIO 
EEES 
uo me a | 0 [ome 
fom fle) | 
lua [ae] E 











El Teorema de BAYES 


Analisis de una tabla 
tetracorica 





id 


M. P. Galindo Villardón 
pgalindo@usal.es 


DEPARTAMENTO ESTADISTICA 
Universidad de Salamanca 





EL TEOREMA DE BAYES EN EL CONTEXTO CLÍNICO 


A = Presencia de una enfermedad 
A = Ausencia de una enfermedad 








P(A) = PREVALENCIA 
(Probabilidad, a priori, de la enfermedad A en la población) 


P(A) = Probabilidad de no tener la enfermedad 





B = Resultado positivo de un test diagnóstico. 


B = Resultado negativo de un test diagnostico. 














P(B/A) = SENSIBILIDAD del test 
(Probabilidad de que el test sea positivo en presencia de la 
enfermedad). VP 


P(B/A) = Probabilidad de un falso negativo FN 








P(B /A) = ESPECIFICIDAD del test VN 
(Probabilidad de obtener resultado negativo en sanos). 


P(B/A) = Probabilidad de un falso positivo FP 





¿P(A/B)? = VALOR PREDICTIVO POSITIVO (VPP) 


¿P(A/B) ? = VALOR PREDICTIVO NEGATIVO (VPN) 














El TEOREMA DE BAYES permite calcular: 


La probabilidad de que el individuo esté enfermo en el caso de 
que el resultado del test diagnóstico sea positivo: 


P(B / A).P(A) 


POB = ETAPA + P(B/A) P(A) 






OT 3 
Thomas BAYES (1702 - 1761) 


La probabilidad de que el individuo este sano condicionado a 
que el resultado del test diagnostico sea negativo: 


P(B/ A).P(A) 


AS P(B/A).P(A) + P(B/ A).P(A) 











Problema: 


Valor predictivo del test con resultado positivo: 


En una campana de erradicacion de la tuberculosis se 

= prevalencia.sensibilidad — somete la población escolar a la prueba de tuberculina. Se 
prevalencia . sensibilidad + (1 - prev.). (1 - espec.) sabe que: 

la Sensibilidad del test es 0.96 


la Probabilidad de que el test sea positivo en un 
individuo sano es 0.05. 





Valor predictivo del test con resultado negativo: 


(1 - prevalencia) . especificidad Si la prevalencia de la enfermedad es 0.001, 





o (1 - prevalencia) . especificidad + prev (1 - sensib.) 


DETERMINAR: 





a) Valor predictivo para casos positivos. 
b) Valor predictivo para casos negativos. 

















a 
Sensibilidad peineta 
: P(B/A) : ar : 
i 0.06 si ME 





¿Sal ti 
Falso negativo I o la 


IIS? 


il eee 
Especificidad Especificidad 

















Sensibilidad 
: P(B/A) : 
rr 0.96 : 






Penna... 


Falso Positivo 


=— 0.95 
P(B/A) 


P(A / B) = _ PB/APA) 
P(B/ A).P(A)+P(B/A).P(A) 

= 0,960,001 
0,96 . 0,001 + 0,05 . 0,999 


= VPP = 0,0188 





PARA CONFIRMAR UN DIAGNÓSTICO 


¿La prueba más sensible? 
¿O la más específica? 


¿Y para DESCARTAR? 











En efecto: 







VERDADEROS POSITIVOS=VP 
(SENSIBILIDAD) 


P(B/A) VERDADEROS NEGATIVOS=VN 
(ESPECIFICIDAD) 


CONFIRMAR => ALTA ESPECIFICIDAD 


DESCARTAR => ALTA SENSIBILIDAD 








EXACTITUD DE UNA PRUEBA 
DIAGNÓSTICA 


La exactitud se define por la sensibilidad, la especificidad, los 
valores predictivos y la eficacia. 


EFICACIA: Porcentaje de individuos 
correctamente clasificados. 


VP + VN 


Eficacia = ——_—_—____—___—_——— 
VP + VN + FP + EFN 


VP=Verdaderos positivos FP=Falsos posistivos 
VN=Verdaderos negativos FN=Falsos negativos 











¿Y si los datos vienen en una tabla tetracorica? 


Prueba referencia 


ENFERMOS NO 
ENFERMOS 


POSITIVO 


VP FP 
ab 


NEGATIVO FN cd VN 


-no 


VP+FN — FP#VN 





Sensibilidad 


ENFERMOS NO 
ENFERMOS 


POSITIVO 


VP FP 
alb 


NEGATIVO FN cd VN 


VP+FN FPN 





Sensibilidad=P(+/E) = a/a+c 











Especificidad 


ENFERMOS NO 
ENFERMOS 


POSITIVO VP ER 


alb 


NEGATIVO FN cid 





Especificidad=P(-/noE)= d/d+b 








Valor predictivo positivo (VPP): 


ENFERMOS NO 
ENFERMOS 


POSITIVO ER 


NEGATIVO FN cd VN 


VP+FN FP+VN VP+FP+ 
FN+VN 





P(E/+):VP/(VP+FP)= a/a+b 











Valor predictivo negativo (VPN): 


ENFERMOS NO 
ENFERMOS 


abi 


NEGATIVO | FN cd VN FN+VN 


Oks) EMAC) VP P VP+FP 


E 
Es | 


VP+FN FP+VN VP+FP+ 
FN+VN 








Prueba referencia 


ENFERMOS NO 
ENFERMOS 





POSITIVO FP VP+FP 


VP 
alb 


NEGATIVO CIEN FN+VN a +C a d 
Prevalencia : — ; Sensib. : —; Especif. : — 
VP+FN  FP+VN VP+FP+ N a +C + 


FN+VN 


VPP 

















Ejemplo: 
Faringitis aguda. Exploración y Cultivo. 


Validar la impresión clínica de faringitis estreptocócica: SI/NO, 
comparándolo con el cultivo faríngeo para estreptococo 
betahemolítico del grupo A (estándar de oro): AUSENTE/PRESENTE 





Sensibilidad: 27/37: 0.73: 73% 
Especificidad: 77/112: 0.69: 69% 
Falsos Positivos: 35/112: 31.25% 
Falsos Negativos: 10/37: 27.02% 

Valor predictivo positivo: 27/ 62= 0.44: 44% 
Valor predictivo negativo: 77/ 87= 0.88: 88% 


Eficacia: (27+77)/149: 0.70: 70% 

















Más información en una tabla 
tetracórica 


Enfermedad 


ENFERMOS NO) 
-ENFERMOS | 


PRESENTE VP FP VETER 


Factor | albi 


Riesgo 


AUSENTE FN cd VN FN+VN 


+ FP+VN VP+FP+ 
VP+FN ae 


















































PRESENTE VP FE VP+FP = = - 
"RKA mm Riesgo Relativo Riesgo Relativo 
VP+FN  FP+VN AREN EAO m 
a EI RR no puede ser utilizado en estudios 
RR = P(E /+) _atb retrospectivos ya que no se conocen las 
P(E /-) C probabilidades condicionadas de 
a presentar la enfermedad. 
c+d 
La enfermedad es RR mas frecuente Fijamos de entrada los casos totales con enfermedad y los 
entre los casos expuestos al factor casos totales sin enfermedad y no es posible conocer la 
de riesgo que en aquellos que no lo proporción real en los 2 subgrupos estudiados. 
estan. 
ODDs Ratio :PROSPECTIVOS 
r . _ razón enfermos en los expuestos 
Fra ccion Atri D u | ble Enfermedad kor razón enfermos en los no expuestos 
ENFERMOS NO 
ENFERMOS 
Estima la proporción de la enfermedad, entre los expuestos, que Factor IAS P Ati P(E/+) a/ +b 
puede ser atribuible al hecho de estar expuestos. Riesgo b 
AUSENTE FN FN+VN OR = P(noE/+) z b/ +b = a.d 
La fracción atribuible en el grupo expuesto (fracción etiológica, o P(E/—) of d b.c 
porcentaje de riesgo atribuible en los expuestos), establece el Mi) P(noE /-) cy, + 
grado de influencia que tiene la exposicion en la presencia de c+d 
enfermedad entre los expuestos. 
e Su cálculo se realiza: Fa en expuestos= (RR-1 IRR) 




















RETROSPECTIVOS: 


Enfermedad 


OR 


razon de expuestos al riesgo en enfermos 


razon de expuestos al riesgo en sanos 


ENFERMOS NO 
ENFERMOS 


PRESENTE 


Factor 
Riesgo 


VP+FN FPN 





P(+/E) ae 


PIE) _ Vase _ad 
P(+/noE) b be 
P(-/noE) yd 

b+d 








Un ejemplo 


Tabla 5 
Factores de riesgo de Sibilancias, Odds Ratio (OR) con Intervalo de 
Confianza (IC) al 95%, SILBIDOS (Var 14) 


IC del 95% 
OR 


|SexoVarén/Mujer | 200 | 54.2] 1.15 [069;147 | 
| 


[PRN 2500 83489 gr O JO AY Ree 
(PRN 2499 O [ao | os0:124 | 
[PRN 3500 gr aos f 262] 1.26 | 094,158 _| 


No mascotas ATA Reference 
[Pero SSCS SB] TOS] 097 | oee 
CI 17 CI EA AA 
we o Arpa] 078 228 
[Conejamhamater SCS A] sa| aaz | 188, 11.90 
Ors o Jo josje] oee 














OR versus RR 


Cuando los riesgos en ambos grupos son pequeños, el odds ratio se 
aproxima bastante al riesgo relativo y puede considerarse como una 
buena aproximación de éste. 


Cuando se trata de eventos frecuentes, la discrepancia entre 
ambos parámetros se acentúa. 





Cuando el evento es frecuente, RR y OR no son intercambiables. 


La probabilidad de enfermar = 
(OR/OR+1) 


Si el OR fuese, por ejemplo, de 2,5 entonces, 

, podemos afirmar que la 
probabilidad de enfermar es de 0,714, es decir la 
probabilidad de que enferme un expuesto es de 

71,4%. 


Si el OR = 1, la probabilidad es del 50%, es decir 
que existen en este último caso la misma 
probabilidad de que el evento ocurra estando o no 
la otra variable en estudio presente. 
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ANÁLISIS RELACIÓN 2 VARIABLES 
CUANTITATIVAS: 


Coeficiente de Correlación de Pearson 











e HIPOTESIS DE PARTIDA: Ho 
Las dos variables en estudio 


son independientes 


e HIPOTESIS ALTERNATIVA: Ha 


Las dos variables en estudio 
están relacionadas 











¿CÓMO NOS DECIDIMOS 
POR UNA U OTRA 
HIPÓTESIS? 


e Se recogen datos y se inspeccionan 


eGráficamente 


eAnalíticamente 














DIAGRAMA DE DISPERSION 


o on DHMH FW YF ojx 


92.8 Y a 
92,3 E 
80.0 de ls 
0 
89,1 80 ` e 
83,5 
68.9 70° e O m 
69,2 
® 

ai ai ° 
58,3 

50 — _ _ _ __ S es E T 
612 0 2 4 6 8 10 


Cada individuo vendrá representado 
por un punto (x,,y,) en el gráfico 





cont nn 2h 0 Noli) 


92,8 
923 
80.0 
89,1 
83,5 
68,9 
69,2 
67,1 
58,3 
61.2 


DIAGRAMA DE DISPERSIÓN 





Cada individuo vendrá representado por un punto (x;,y;) en el gráfico 











VARIABLES INDEPENDIENTES 





No existe relación 











VARIABLES DEPENDIENTES 





Relación lineal 





Relación curvilínea 


i Dependencia fu 1 


Relación lineal perfecta 





Relación curvilínea perfecta 














ao £ 
J 
Vere | 
TS Oe 
— 


(= - 


DATOS 


VARX VARY 
0 92,80 
1 92,30 
2 80,00 
3 89,10 
4 83,50 
5 68,90 
6 69,20 
7 67,10 
8 58,30 
9 61,20 
Nombre Tipo Anchura | Decimales 
VARX Numérico |8 0 
VARY Numérico |8 2 


Ninguna Ninguna 8 


Ninguna Ninguna 8 


Analizar Marketing directo UMlidades Ventana Ayuda 


== ig Generador de gráficos... 


EI E 

















Barras... Cuadros de diálogo antiguos a 2 
Barras 3-D... 
E Líneas... ‘Visible: 2de2\ 
E Áreas... J Diagrama de dispersión si 
E Sectores... | PE 
Máximos y mínimos... =- v Eje Y: 
OJ VARY 
[5] Diagramas de caja... 4 
fh] Barras de error... y Eje X: 
E] Pirámide de población... & VARX 





CEJ Dispersión /Puntos... 


Dispersión/Puntos 


mi Dispersión P 
"3 matricial s 






id .+| Dispersión 
Sl 3-D 


VARY 


Valores Perdidos Columnas| Alineación Medida 
Derecha $ Escala 


Derecha $ Escala 





¿Cómo cuantificar esa relación? 


COVARIANZA 


2(x; —X)(yi — y) 


piel 
Sxy = 


No esta acotada 


n 


Arrastra las unidades de las dos variables 











COVARIANZA Medida que 


muestra la relación entre dos 


variables cuantitativas. 





100 200 


n 
(iS ay) 
S = ¡=P 


n 





Seleccionamos un punto cuaquiera, por 
ejemplo en el primer cuadrante 


(y Le ) + La diferencia entre el valor de la 
coordenada xi y la media es positiva 


La diferencia entre el valor de la 
coordenada yi y la media es positiva 


El producto de ambos es positivo y por lo 
tanto lo es el correspondiente sumando de la 


covarianza 
500 


Todos los puntos del primer cuadrante aportan 
sumandos positivos (los pintados en rojo) 


Para el segundo cuadrante la diferencia en x es positiva 
y en y negativa, por tanto el producto es negativo 


Para el tercer cuadrante, ambas diferencias son negativas, 
por tanto el producto es positivo 


Para el cuarto cuadrante, el producto es negativo 








COVARIANZA 
auc oe 
eno Sxy > 0 











Si la relación es directa la mayoría de 
los puntos aporta sumandos positivos y 
la COVARIANZA ES POSITIVA 


Si la relación es inversa la mayoría de 
los puntos aporta sumandos negativos y 
la COVARIANZA ES NEGATIVA 


Si no hay relación se compensan los 
sumandos positivos y los negativos y la 
COVARIANZA ES APROXIMADAMENTE CERO. 











RELACION LINEAL DIRECTA RELACION LINEAL INVERSA 


COEFICIENTE DE CORRELACION LINEAL DE PEARSON 


r <0 > Relación lineal inversa 


r>(0 => Relación lineal directa 


El Variables independientes 
Y 222 


Relación no lineal 














r>0 ra} m0 


INDEPENDIENTES 


Evolución de r y diagrama de dispersión 


Variable dependiente (explicada) 





150 160 170 180 190 


Variable independiente (explicativa) 











uba Marketing directo Graficos Utilidades Ventana 
Informes 
it Estadísticos descriptivos » [datos 


Tablas a b, : ag 
Comparar medias > : 
Modelo lineal general 

Modelos lineales generalizados 
Modelos mixtos 
Correlaciones 
Regresión 
Loglineal 
Redes neuronales 






















E Distancias... 
| 








oa Joauswyp”. ol 


Correlaciones bivariadas 


Variables: 





$ NARX | Opciones... 


[ Bootstrap... 


(+) 3 


Relación inversa 





Correlaciones 











Correlación de Pearson 


L L 
oeficientes dé lación 
M Pearson | | Tau-bjde Kendall |_| Spearman 
Mificación Sig. (bilateral) 


(e) Bilateral () Unilateral 


wv Marcar las correlaciones significativas 


2) 


N 


Correlación de Pearson 
Sig. (bilateral) 
N 


Restablecer | Pegar | Cancelar [Aceptar | 








**_ La correlación es significativa al nivel 0,01 
(bilateral). 











Sintetizando... 


+ HIPOTESIS DE PARTIDA: Ho 
Las dos variables en estudio 


son independientes 


¢ HIPOTESIS ALTERNATIVA: Ha 


Las dos variables en estudio 2 
están relacionadas 





VARY 


Relación inversa 
4 





VARX Correlaciones 


1 Correlación de Pearson 
Sig. (bilateral) 
N 


Correlación de Pearson 
Sig. (bilateral) 
N 





**_ La correlación es significativa al nivel 0,01 
(bilateral). 
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REGRESIÓN SIMPLE 


Coeficiente de Regresión 











Xe Y variables cuantitativas 


X: variable independiente 


Y: variable dependiente 








COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON 







r<(0 > Relación lineal inversa 


r>( => Relación lineal directa 


RELACIÓN LINEAL 
INVERSA 














ANALISIS DE REGRESION 
X: variable independiente y — a E bx 


Y: variable dependiente Y 


Existe regresión de los valores de una 


variable con respecto a los de otra, 


cuando hay una línea, llamada línea de 





regresión, que se ajusta a la nube de 


puntos. 





A la ecuación que nos describe la relación entre las variables se le denomina 
ecuación de regresión. 


CRITERIO DE LOS MÍNIMOS CUADRADOS 


D = Ye: = dy, i) =e -a 
E 





RECTA AJUSTADA 
y*=atbx, 











CRITERIO DE LOS MÍNIMOS CUADRADOS 


¿Cómo determinar los valores de a y b ? 


Se hallan las derivas parciales de D respecto de a y b, y se resuelve el sistema 


resultante de igualar a O (minimizar) las ecuaciones obtenidas. 


D= de =D ly, -y:) =} ly, -a-bx,) 


(al i= 














» Sx 


S$ 


Coefic. de Regresión Ordenada en el origen 














COEFICIENTE DE REGRESIÓN 


X: variable independiente Y: variable dependiente 


A: término independiente u ordenada en el b>0 
— origen > U: relación directa 
Y= a +bX 


b i : Cuando X aumenta Y también 

: pendiente de la recta o coeficiente de lo haces X 
regresión a 
b < 0: relación inversa y on 


Cuando X aumenta Y 
disminuye. 


b > 0: incremento de Y cuando X aumenta en una 


C iente de R ió . 
oeficiente de Regresión ad 


b <0: incremento de Y cuando X disminuye en 
una unidad 











PODER EXPLICATIVO 


COEFICIENTE DE DETERMINACION: R2 


Poder explicativo / Bondad de Ajuste 


0O<R?< 1 


Cuanto más se aproxime R? a la 1, mayor poder explicativo o 
mayor bondad de ajuste del modelo. 


T = Coeficiente Correlación 


R2 x 100 = Porcentaje de variaciones explicadas por el modelo. 


RESULTADOS 





| | 


LUILIVIT 






11anm>10rmar Marketing directo Gráfico: 
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uv 





Informes 
Estadisticos descriptivos 
Tablas 
s Graficos SmartArt Transiciones Comparar medias 
Fuente _ _ Modelo lineal general 
Sin titulo3 [Conjunto_de Modelos lineales generalizados 


— Y e E, =E ie Modelos mixtos R es el coeficiente de CORRELACION 


Correlacione 
li automatizada... Regresión 
=] Lineales... Loglineal 


) Dependientes: 
L€) [$ vary 
Bloque 1 de 1 


A 4 Siguiente — Coordina Coeficientes? 
Independient8s: Opciones... Coeficientes no Coeficientes 
$ VARX i ee tipificados 
___ Bootstrap... 
Y RA Modelo Sig. 
(Constantg —-——_ 273 2, 746 34, m3 a aTa 
Método; l- introducit 2 VARX -4,007 514 -7,791 | ooo | 


6.0.6 Regresion lineal: Estadisticos a. Variable dependiente-MARY—— 


X e Y estan relacionadas linealmente (p-valor =0.000) de manera indirecta. 








R? es el coeficiente de DETERMINACIÓN 





Estadisticos..4 


Graficos... 








Coeficientes de regresion (Y Ajuste del modelo 


© Estimaciones _| Cambio en R cuadrado 


Cuando X aumenta una unidad, aa disminuye 4 unidades (en media) 














Y= a+bX lo: 








Coféficiente 


T 
estandafizados tipificados 
a EET | 
(Constante) A 94,273 2,746 34,333 000 
AA a 


afiable dependiente: VARY 













Constante =a = Valor de la Y cuando X vale cero 


Variabilidad esperable para el coeficiente de regresión 


Significa que a Y b 
son significativamente 
distintos de cero y por tanto 
el modelo es de la forma 


Y= 94.273 -4.007 








PRESENCIA DE OUTLIERS 


98 106 111 113 116p TIERE 


56 58 60 64 65 88 69 





b=0,5714 
R2 = 0,63 


O busqueda de p... 
O sin outlier 





80 85 90 95 100 105 110 115 120 125 130 











Purificación GALINDO VILLARDON 
pgalindo@usal.es 


Purificación VICENTE GALINDO 
purivgOusal.es 





Departamento de ESTADÍSTICA 


Universidad de Salamanca 


Regresión Simple 


Y= a+bX 
REGRESIÓN MÚLTIPLE 
E fu Í My + Hil + 





pp 











ESTIMADORES 
7 it q K T TE T 


Los coeficientes de regresión se 


WESENS RS ESEN | Coeficientes de regresión estandarizados: 
EAN EE SIC | Cada Beta; (estandarizado) se interpreta como 
AM ENE ESA | el cambio, en unidades de desviación típica, en 
mantienen constantes; es decir, el la variable dependiente, por cada cambio en 
una desviación típica en la variable 
independiente Xi, manteniendo el resto de las 
variables independientes constantes. 





cambio producido en la variable 
dependiente Y por cada incremento 
Unitamio eni amr epresorakX, 
manteniendo constante el resto de las 


Equivale a realizar una regresión sobre datos 
predictoras. estándarizados 
(media cero, desviación tipica 1) 














Diabetes, colesterol y 
tratamiento de la hipertensión 


Feher, M.D.; Rains, S.G.H.; Richmond, W.; Torrens, D. et al. 
“ Beta-blockers, Lipoproteins and Noninsulin-Dependent Diabetes” 


Postgrad. Med. Journal. Vol 64: 926-930, 1988 

















HIPOTESIS: Tratar la hipertensión de los diabéticos con 


B —bloqueantes puede empeorar su perfil de colesterol. 
REGRESION MULTIPLE 


Modelo: H= 0.711 - 0.0824-B - 0.0173-D - 0.0399-S - 0.00455-A - 0.00214-W - 0.0444-T + 


0.00463-C - 0.00391-G 


Se ha llevado a cabo un estudio sobre 71 individuos varones en el que se 
pretende conocer el efecto de los Beta Bloqueantes sobre HDL (concretamente 
sobre la subfracción HDL-2) en los hipertensos diabéticos. 


H= HDL -2 


E i si toma PB — bloqueadores 


O no los toma B= ¿B-— bloqueadores ? 
D 1 si bebe D= ¿Bebe? 
lo S= ¿Fuma? 
A = Edad 
1 si fuma 
S -| fa W = Peso 
0 T = Trigliceridos 


Para ello se consideran 8 
variables explicativas A: Edad 


W : Peso 


T : Trigliceridos 


C= C-Peptid. 
G= Glucosa 


C : C-peptidos 
G : Glucosa 














RESULTADOS CONCLUSION 


Las variables D (bebe), W (peso), C (C-peptidos) y G (nivel de glucosa) son no 
significativas ( P>0.05) por lo tanto sus coeficientes no difieren significativamente de 
cero. 

A partir de estos datos no se puede pensar que afecten los niveles de HDL-2. 





Los beta-bloqueadores bajan el HDL en hipertensos 
l | o diabéticos, por lo que deben ser usados con mucha 
El caso de la variable S (¿fuma?) es dudoso . Los demás coeficientes son 


estadísticamente significativos (P<0.05). Esto significa que no pueden precaución en diabéticos, o ser evitados. 
considerarse nulos y por tanto que las variables correspondientes B (beta - 
bloqueadores), A (edad) y T (triglicéridos) afectan los niveles de HDL-2. 








Analizando los signos correspondientes a las tres variables significativas (P<0.05) 
podemos afirmar que B, A y T afectan negativamente los niveles de HDL-2; es decir, 
cuanto más edad, cuanto más altos sean los triglicéridos, y cuanto mayor sea la dosis 
de beta-bloqueadores, el HDL-2 disminuye, en hipertensos diabéticos. 























Regresion Logistica 
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Introduccion 


Herramienta para modelizar la relación entre una 
variable dicotómica de respuesta y una o más 
variables predictoras. 


Es posible incluir regresores de tipo cualitativo, 
mediante la utilización de variables 
indicadoras, de manera análoga a como se hace 
en regresión lineal. 











REGRESIÓN LOGÍSTICA 


Variable respuesta dicotómica 


Y=1 si el hecho ocurre = 
Y=0 si el hecho no ocurre Y=P, + pi X, 





PROBLEMA: 
El valor estimado debe ser un valor 
entre cero y uno por ser una probabilidad 


La regresión lineal debe ser descartada 








REGRESIÓN LOGÍSTICA 











Función logística 





1 








P+BX 1 Ñ 
Ea) een 
1+eb,+PAX, 1+01B,+PBA4,) i 5 432401 2 3 4 § 





Con una sencilla transformación (logit) puede convertirse en lineal 


log it(p) = In( ss ) =P, + PX, 
lb 
























































































































































m( 2) - Bo + pı X > — a l _ eFotPi® +] — ¡AS 
=P p obo + PX p e oa 
+B,X _ pp+pP¡X Pp+/¡X 
> p=(1- pjebo BX => p= ePotPi4 _ pePotPi 1 ~(By +B, X) 
= ee ae 
E oPo +P X 1 
L= ON 
1+ ePotPiX p 14 e (ot BiX) 
Invirtiendo ambos términos de la ecuación... Al estimar By y B; por Máxima Verosimilitud, se obtiene... 
Edad | Hipertensión | 
po 7 
= 
e 
UY 
=- 
D) 
q 
e= 
D) 
= 
I 
O. | | E 
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Histograma para Hipertension = 0 
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Ensayando B= -6,48 B,=0,14 en P = 1. (Bot BX) 
Estimacion por Maxima Verosimilitud 


Consiste en obtener los valores de los 
parámetros que maximizan la probabilidad 
de obtener la muestra observada. 


En ocasiones es posible llegar a los 
estimadores usando herramientas del 
álgebra y el cálculo, pero en la mayoría de 
ocasiones se usan procesos numéricos 
iterativos. 














INTERPRETACION DE LOS 
PARAMETROS 








Regresion logistica simple 


e Falso Positivo: Un sujeto es declarado como 
. B, es la pendiente de la recta tangente a la 
enfermo sin estarlo. 


curva en el punto para el que la 
probabilidad esperada es 0.5 








e Falso Negativo: Un sujeto se declara sano, 
estando realmente enfermo. 


SsiB>0 











fg 


El valor de X para el que se alcanza la 
probabilidad 0,5 es -Bo/B; . SiB <0 












































REGRESION LOGISTICA 


Yao) seth fs X, +... 





Ne l 
Ain B+BX+BX+B.X+...) 


o A 


Función logística Parámetros 


REGRESIÓN LOGÍSTICA 


PY =1)= 





l 
1+ oP BX Pp Xp X+. A .) 














Individuos mayores de 40 anos 


Y =Desarrollo enfermedad coronaria en 10 anos de seguimiento 


PY => ae 
Noe (-OOMOOTSY,OSIIN 0018X) 


Individuos mayores de 40 anos 


Y =Desarrollo enfermedad coronaria (EC) en 10 anos de seguimiento 


maana 0.08 


Se estima que: 


PY =I)- 





El 68% de los sujetos con ese perfil desarrollarán un EC en el siguiente decenio 




















Individuos mayores de 40 anos 


Y =Desarrollo enfermedad coronaria en 10 anos de seguimiento 


PY =l)= 





es O 
tap_(-6:6140 075X.0.312X,0018K) 
(-6.61+0.075X +0.312X,+0.018X,) 


Interpretación igual 
que en regresión 
múltiple 


Interpretación de los coeficientes de 
regresión en términos de Odds Ratio 











Odds y Probabilidad 











Odd( E) = _ P) | 
1— PCE) 
ODE)=-—£L 
1—p 
Odd(E) = ° 


P(E) = 0.68 => Odd(E)=0.68/(1-0.68)=2.12 


Es 2.12 veces más probable enfermar que no enfermar 








Odds Ratio 


Pr(E) 
1- Pr(E£) 
PF(E) 
1- PF(E) 


OR(E) = 











Pr(E) 





OR(E) = 


1-Pr(E) 
PF(E) 





1- PF(E) 


Odds Ratio 


P(E) Fumador — 0.68 


P(E) No Fumador — 0.61 








O(E, ) ala +B, X, +2 1+p3X3 ) 


O(E,) = e-Po +B, X; 0+63X;) 


Interpretación de los parámetros 
Pr(E) 

1- Pr(E) _ ob 
PF(E) 

1- PF(E) 


OR(E) = 


P(E=1/x+1) 
B _ P(E=0/x+1) _ . 
e "am 7 Odds Ratio 
P(E=0/x) 


Para variables continuas: 
e(61) mide el odds-ratio entre un individuo con un valor x+1 y un individuo con 
valor x en la variable independiente, para cualquier valor x 











MENÚ SPSS 








Reports > | Untitled3 [DataSet3] - SPSS Data E 
Descriptive Statistics fe = 
Tables > 
Compare Means > | 
General Linear Model > 
Generalized Linear Models _ nm 
Mixed Models je | Colesterol | Obesidad a Tabaco | 
Correlate > | 250 No No 

$, Linear... 
Loglinear Curve Estimation... 
Neural Networks ® Partial Least Squ 
Classify 


Data Reduction 


Scale 


Nonparametric Tests 


R, Multinomial Logistic... 
R, Ordinal... 


> 
> 
> +4 . . 
» 5 Binary Logistic... 
> 
> 
p | R Probit... 








ĝa Dato 

$) Sexo [Sexo] 

$ Años [Edad] 

$ Presión Arterial Sist... 
E Presión Arterial Dia... 
SH Colesterol sérico [C... 
$) Obesidad [Obesidad] 
$ Consumo de Tabac... 
$ Consumo de Café [... 
$, Consumo de alcoh... 
$) Antecedentes Famil... 
dll Estres (Estres) 

$) Dummy! Estres [D1] 
$) DummyZEstres [D2] 
$ Sexo=2 & Edad>6... 





Block 1 of 1 


Time Series 
Logistic Regression 
> EE Categorical... 
& Enfermedad Coronaria [Enfermedad] z : 
Save... 


Covariates: 






Next Options... 















ka 
Method: | Enter 
Selection Variable: 
‘ep 























saath gees » | Untitled3 [DataSet3] - SPSS Data E 
escriptive Statistics > e 
Tables b aa Sa O 
Compare Means > 
s General Linear Model > 
MENU SPSS Generalized Linear Models > 
Mixed Models > | Colesterol Obesidad | Tabaco ¡laa 
Correlate > | 250 No No 
8, Linear... 
Loglinear > Curve Estimation... 
Neural Networks b R Partial Least Squares. 
Classify > e = A ll 
Data Reduction > iÈ, Binary Logistic... 


Model Summary 


a l Aeg Cox & SnellR | Nagelkerke R 4 NDAD DEL 
Te likelihood | Cox & Snell R | uare | Nagelkerke R | uare 5 


a. Estimation terminated at iteration number 4 because parameter esti h | ,001. 





eco TABLA DE Classification Table Y 





Sa Dato el | Predicted $e 
$) Sexo CL Enfermedad Coronaria 


Si Correct 


$ Presión Arterial Sis 


$ Presión Arterial Di: [Sten 1 Enfermedad Coronaria No 63 1 98,4 
$ Colesterol sérico [C i 

$, Obesidad [Obesid: Si 20 16 44,4 
$) Consumo de Taba: Overall Percentage 79,0 


$ —— rae a. The cut value is ,500 
5 Consumo de alco! 


$) Antecedentes Fam 


dll Estres [Estres 
$) Dummy! Estre 
$) DummyZEstreA(D: 


$ Sexo=2 € Edad>6 



















d i Variables in the Equation OR 


Constant -6,406 1,498 18.280 000 002 







© Re 














\ vara inthe equation N 


A | See | ase | iezeo | i) Some | por 
onstant 4( 49 18.280 i 


Por cada incremento de una unidad en el colesterol el logit se incrementa en 0.02, por tanto el 
odds (ventaja) de “ST” estar enfermo frente a “NO” estar enfermo se multiplica por 1.020 al 
incrementarse una unidad el colesterol. 





Reports 

Descriptive Statistics 
Tables 

Compare Means 

General Linear Model 
Generalized Linear Models 
Mixed Models 

Correlate 
Regression 
Loglinear 

Neural Networks 
Classify 

Data Reduction 




































R, Linear... 
Curve Estimation... 
RR. Partial Least Squares... 


vvviaszavvyvvvvvy¥ 


R. Binary Logistic... 


v 





Model Summary 


P Cox € Snell R | Nagelkerke R 
likelihoed guare guare 
1  { 110104 | 186 | 255 


a. Estimation terminated at iteration number 4 because parameter estimates changed by less yl 














Classification Table 


2 | 
Enfermedad Coronaria 













(dao ny Dato C L 


$) Sexo [Sexo 
$ Años [Edad] 













& Presión Arterial Sis cm y 
Aci Step 1 emia Coronaria No 98,4 

$) Obesidad [Obesidi 44,4 

$) Consumo de Tab : 00 

_ El 98 A% de los que no tienen enfermedad coronaria se han clasificado correctamente 

$ Aneced utilizando el modelo de regresión logística, mientras que de los que “SI” tiene la enfermedad 
y qn se clasifican correctamente el 44.4%. Conociendo los valores del Colesterol se predice 


y Dummy} correctamente la presencia/ausencia de enfermedad coronaria en el 79% de los sujetos. 
Sexo=2 





Obsérvese que el modelo es mucho más adecuado para descartar que para confirmar. 















ANN Logistic Regression | 


B ECONOMIT OGIAN" 































































Dependent: ANO Logistic Regression: Define Categorical Variables 

re Son U E Coronaria [Enfermedad] Covariates: Categorical Covariates: 
@ Años (Edad) Obesidadíndicator(frst) 
@ Presión Arterial sist.. | Previous 
Ê Presión Arterial Dia... 
$ Colesterol sérico [C... Covariates: (e) 
$) Obesidad [Obesidad]  — Obesidad 
& Consumo de Tabac... (e 
& Consumo de Café [... 

Consumo de alcoh... >a*b> ) 
res Famil... poe Contran: 
dl Estres [Estres] Method: Enter à Contrast: Indicator Change 
de Dummy! Estres [D1] 
@ Dummy2Estres [D2] Selection Variable: Reference Category: () Last O First 
Ê Sexo=2 &Edad>6.. ( Rule... ) 





3 O 














Dependent: 


dnd ry Enfermedad Coronaria [Enfermedad] 


-Block 1 of 1 


Dependent: 


ind & Enfermedad Coronaria [Enfermedad] 


Block 1 of 1 

























































Covariates: Covariates: 
PAS Obesidad(Cat) 
Colesterol | Tabaco 
(e) Le) Cafe 
Gab>) CL] eee 
Method: Enter HH Method: Enter ‘ 
a Le Logistic Regression: Define Categorical Variables io Forward: Condy 
Forward: LR y 
Covariates: Categorical Covariates: E Forward: Wald 
$ Colesterol sérico [C... Obesidad(Indicator(first)) Backward: Conditional 
$ Presión Arterial Sist... Cafe(Indicator(first)) Backward: LR Can 
Tabaco(Indicator(first)) Backward: Wald 
e AF(Indicator(first)) 
(4) Alcohol(Indicator(first)) 
Estres(Indica 
-Change Contrast 
Contrast: Indicator ( Change ) 
Reference Category: - O First 
Difference 




















AN eee 











Logistic Regression Variable Selection Methods 


Method selection allows you to specify how independent variables are entered into the analysis, Using different methods, you can construct a variety of regression models from 
the same set of variables, 


B Hide details 


a Enter, A procedure for variable selection in which all variables in a block are entered in a single step, 

a Forward Selection (Conditional), Stepwise selection method with entry testing based on the significance of the score statistic, and removal testing based on the 
probability of @ g based on conditional parameter estimates, 

a Forward Selection (Likelihood Ratio), Stepwise selection method with entry testing based on the significance of the score statistic, and removal testing based on the 
probability of a likelihood-ratio statistic based on the maximum partial likelihood estimates, 


a Forward Selection (Wald), Stepwise selection method with entry testing based on the significance of the score statistic, and removal testing based on the probability of the 
Wald statistic. 


a Backward Elimination (Conditional), Backward stepwise selection, Removal testing is based on the probability of the likelihood-ratio statistic based on conditional 
parameter estimates, 


a Backward Elimination (Likelihood Ratio), Backward stepwise selection, Removal testing is based on the probability of the Ikelihood-ratio statistic based on the maximum 
partial likelihood estimates, 


a Backward Elimination (Wald), Backward stepwise selection, Removal testing is based on the probability of the Wald statistic, 





Logistic Regression Define Categorical Variables 
You can specify details of how the Logistic Regression procedure will handle categorical variables: 


Covariates, Contains a list of all of the covariates specified in the main dialog box, either by themselves or as part of an interaction, in any layer. If some of these are string 
variables or are categorical, you can use them only as categorical covariates. 


Categorical Covariates. Lists variables identified as categorical, Each variable includes a notation in parentheses indicating the contrast coding to be used, String variables 
(denoted by the symbol < following their names) are already present in the Categorical Covariates list. Select any other categorical covariates from the Covariates list and mov 
them into the Categorical Covariates list. 


Change Contrast, Allows you to change the contrast method, Available contrast methods are: 
+ Indicator. Con Cate the presence or absence of category membership. The reference category is represented in the contrast matrix as a row of zeros, 
+ Simple, Each category of the predictor variable (except the reference category) is compared to the reference category. 


Difference, Each category of the predictor variable except the first category is compared to the average effect of previous categories, Also known as reverse Helmert 
contrasts, 


+ Helmert, Each category of the predictor variable except the last category is compared to the average effect of subsequent categories, 
+ Repeated, Each category of the predictor variable except the first category is compared to the category that precedes it, 
+ Polynomial, Orthogonal polynomial contrasts. Categories are assumed to be equally spaced, Polynomial contrasts are available for numeric variables only, 
« Deviation, Each category of the predictor variable except the reference category is compared to the overall effect. 
If you select Deviation, Simple, or Indicator, select either First or Last as the reference category, Note that the method is not actually changed until you click Change, 


String covariates must be categorical covariates, To remove a string variable from the Categorical Covariates list, you must remove all terms containing the variable from the 
Covariates list in the main dialog box. 
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ANALISIS DE COMPONENTES PRINCIPALES (ACP) 
ANALISIS FACTORIAL 
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ACP 


El Análisis de Componentes Principales (ACP) es una técnica 
estadística de síntesis de la información, o reducción de la 
dimensión (número de variables). 


Es decir, ante un conjunto de datos con muchas variables, el 
objetivo será reducirlas a un menor número perdiendo la menor 
cantidad de información posible. 


Los nuevos componentes principales o factores serán una 
combinación lineal de las variables originales, y además serán 
independientes entre sí. 











ACP 


Variabilidad 


es equivalente a 
Información 











EJEMPLOS TIPICOS 


-Las diferentes asignaturas que componen la enseñanza media se 
dividen en Ciencias y Letras. 


-Ciertos síntomas clínicos propios de los enfermos mentales se 
clasifican en síntomas de tipo neurótico y síntomas de tipo psicótico. 


-El estudio de los conflictos internos de las naciones descubre la 
existencia de tres factores: agitación, revolución y subversión. 


-Los ítems de un test de BURNOUT conforman tres dimensiones 
latentes: Autoestima, Agotamiento y Despersonalización 











ANALISIS DE COMPONENTES 
PRINCIPALES (ACP) 


Pearson, K. (1901). On lines and planes of closets fit to systems of points 
in the space. Philosophical Magazine, 2: 559-572. 


Pearson trata de encontrar una matriz de menor dimensión que la original, 
que mejor resuma la informacion de los datos originales, 
en el sentido de los minimos cuadrados. 


Hotelling, H. (1933) Analysis of a complex of statistical variables into principal 
components. Journal of Educational Psychology, 24:417-441,498-520. 


Hotelling, H. (1936). Simplified calculation of principal components. 
Psychometrika, 1: 27-35 


La aproximacion de Hotelling obtiene sucesivamente combinaciones lineales 
de variables con varianza maxima. 





¿Cómo se calculan las Componentes Principales”? 


Pearson y Hotteling demuestran que: 


Basta con: 


1) Calcular la matriz de covarianzas (o correls 


Componentes 
Sus varianzas Principales 


2) Buscar los valores propios y los vectores propios 
de esa matriz de covarianzas (o correlaciones) 














ALGUNAS PROPIEDADES 
DE LAS COMPONENTES 








Àj 
7 —-— X100 
PROPORCIÓN DE VARIANZA ABSORBIDA P 
POR CADA COMPONENTE y E 
J 
Jal 





El valor propio asociado a cada variable latente, dividido 
por la suma de todos ellos, nos indica la importancia 
relativa de la correspondiente variable latente 








¿Cuántos factores debemos retener? 


Scree Plot 


VALORES PROPIOS MAYORES QUE UNO 
El número de factores estará determinado por el número de valores prof 


REGLA DEL 75% DE LA VARIANZA 
El número de factores esta determinado por la absorción de inercia. Se t 
como sean necesarios para conseguir un 75% de inercia absorbida. 





E igervalue 


Co mponent Nu mber 


REGLA DEL CODO (CATTELL (1966) SCREE PLOT 
El procedimiento del scree plot de Cattell consiste en representar gráficamente los valores propios en 
orden descendente y dibujar una recta a través de las componentes con los valores propios más bajos. 
Se retienen las componentes que se corresponden con los autovalores que quedan por encima de la 
línea. 


ESPECIFICACION DEL USUARIO 
Es posible especificar personalmente el número de factores. Usualmente no será mayor que el número 
de variables dividido por dos. En el caso en que se sobrestime éste valor, el n° será ajustado por el 
ordenador. 











¿QUÉ HACER PARA 
INTERPRETAR LOS EJES 
FACTORIALES? 


e Se analizan las saturaciones (en valor absoluto). 
Aquellas variables que presentan altas 
saturaciones son las que tiene mayor 
importancia en la interpretación del eje. 


eLas más interesantes suelen ser las que 
presentan altas saturaciones para ese eje y bajas 
para los demás 


EJEMPLO ACP 


n=20 pacientes 
p=7 variables 















X,=Presi6n arterial media (mmHg) 
X,=Edad (años) 

X,=Peso (kg.) 

X,=Superficie corporal (m7) 
X¿=Duración de la hipertensión (años) 
X,=Pulso (pulsaciones/minuto) 
X,=Medida del estress (0-100) 




























16 11 10 58 
18 = o 


Considerando sólo 2 variables i 


Podemos interpretar la similitud entre individuos 


PRESION 





EDAD 











Si considerásemos las 7 variables, 


Necesitaríamos un hiperespacio de 7 dimensiones para 
representar a los sujetos. 





ACP 











Sipxp A X 


En nuestro ejemplo 


eLos valores propios (Aj) representan la varianza de las nuevas variables; 
es decir su capacidad informativa 


3908 | 1,470 0,708 | 0,521 | 0,308 | 0,080 
Var 5582 21,003/10,125 7,452 | 4399 1154 002 100%, 





55,382 76,835 86,9611 94,414 98,813 99 968 CS 


Sipxp A X 


eLos vectores propios son las componentes principales 





En nuestro ejemplo | 












El resto aporta muy poca información 


AE D, 40671 | -0,38985 | 0,00711 
DURA ma 0,21965 | 0,43261 [0,86381 0,86381 86381) 


0,42683|| 0,23457 |-0,16222 
E 0,17952 | [0,62974 | -0,45015 


1° Componente) Y = 0,48 PRESIÓN + 0,36 EDAD + ... + 0,17 STRESS 





g 
D 

















SALIDA DE SPSS 


Component Matric® Interpretación de las variables latentes 
Ca [ERE FREE 1: Eje horizontal 


ÍNDICE DE RIESGO DE ENFERMEDAD CORONARIA 
2: Eje vertical 
ESTRÉS 





Extraction Method: Principal Component Analysis. 
a 2 components extracted. 





Correlaciones entre las componentes 
principales y 2,00000 
las variables observadas 


REGR factor score 2 for analysis 2 


-2,00000 


-2,00000 -1,00000 0,00000 1,00000 2,00000 
REGR factor score 1 for analysis 2 











e No existe en el programa SPSS una opción propia para realizar un ACP. 


¿Cómo realizar un PCA en 


SPSS? 


Informes 

Estadísticos descriptivos 
Tablas 

Comparar medias 


b 

b 

> 

b 
Modelo lineal general » 
Modelos mixtos » 
Correlaciones » 
Regresión » 
Loglineal » 
Clasificar > 
> 


Reducción de datos Análisis Factorial... 





Escalas Análisis de correspondencias... 
Pruebas no paramétricas Escalamiento óptimo... 


> 
k 
Series temporales » 
Supervivencia > 
Respuesta multiple > 


Para hacerlo, deberemos recurrir a 
la opción Análisis Factorial (AF) 











ANALISIS DE COMPONENTES PRINCIPALES (ACP) 
ANALISIS FACTORIAL (AF) 


ACP AF 


Con ambas técnicas, tratamos de reducir 


la dimensionalidad de los datos 





Tratamos de recoger la informacion de las p variables 
observables con unas pocas variables (q<p), no 
directamente observables (latentes), que recojan un alto 
porcentaje de la información original, y que sean 
incorreladas 


Situación de 
partida 


p variables ACP AF 


con mucha 
variabilidad y 

altamente 
correlacionadas 


Buscamos 





q variables 


(q<p) 


con mucha 
variabilidad pero 
independientes 














ANALISIS DE COMPONENTES 
PRINCIPALES (ACP) 





ACP AF 


*Estudiamos la estructura de 
correlaciones entre VARIABLES 


*Se buscan variables hipotéticas 
que EXPLIQUEN 
las variables originales 


*Representamos 
CORRELACIONES entre variables 
y entre variables y factores 














ANÁLISIS DE COMPONENTES 
PRINCIPALES (ACP) 





ACP AF 


*Nos interesa la “Estudiamos la estructura de 
información de los INDIVIDUOS | correlaciones entre VARIABLES 


“Queremos describir los “Se buscan factores hipotéticos 
valores de los individuos mediante que EXPLIQUEN 
un pequeño n° de variables, que las variables originales 
sean combinación de las originales 


*Representamos 
*Representamos CORRELACIONES entre variables 
INDIVIDUOS y entre variables y factores 














Análisis factorial -FA- 


El ANÁLISIS FACTORIAL (como el análisis de componentes principales), 
TIENE COMO OBJETIVO REDUCIR LA DIMENSIONALIDAD DE LOS DATOS 


El análisis factorial surge del interés por comprender las dimensiones de 
la inteligencia humana en los años 30 del siglo pasado. Sus orígenes se 
deben a Spearman, C. (1904) Psicólogo inglés. También 
contribuyeron al mismo de forma significativa Pearson y Hotelling 
(1933) Thurstone, (1947). Los mayores avances en esta técnica se 
han producido en el campo de la psicometría. 


C. Spearman 


El modelo de análisis factorial especifica que las variables vienen 
determinadas por los FACTORES COMUNES (calculados como en 
ACP) y por FACTORES ÚNICOS (uno específico para cada variable); 
las estimaciones calculadas se basan en el supuesto de que ningún 
factor único está correlacionado con los demás, ni con los factores 
comunes. 


El ANÁLISIS FACTOR 
TIENE COMO OBJETI 















Las Matemáticas tienen mucho en 
común con las otras materias de 
Ciencias, pero tienen algo específico 
que las diferencia de cualquier otra 
materia de Ciencias. 





El análisis factorial surge del 
la inteligencia humana en lo 
deben a Spearman, C. (19 
contribuyeron al mismo de fo 
(1933) Thurstone, (1947 
han producido en el campo d 








El modelo de Analisis Factorial 
captura esta información 


El modelo de análisis fa sspecifica que las variables vienen 
determinadas por los E ORES COMUNES (calculados como en 
ACP) y por FACTORES ÚNICOS (uno específico para cada variable); 
las estimaciones calculadas se basan en el supuesto de que ningún 
factor único está correlacionado con los demás, ni con los factores 
comunes. 











SPSS 


¿Cómo realizar un AF en SPSS? 


e Para obtener un Análisis Factorial (AF) 


— Seleccione los menús: 


MEEA Gráficos Utilidades 



















Informes » 
Estadísticos descriptivos > 
Tablas » 
Comparar medias > 
Modelo lineal general > 
Modelos mixtos > 
Correlaciones > 
Regresión » 
Loglineal > 
Clasificar » 
Reducción de datos + 
b 
b 
b 
b 
b 





Escalas 
Pruebas no paramétricas 
Series temporales 
Supervivencia 
Respuesta múltiple 


Escalamiento optimo... 





SPSS 








Selección de variables 


En primer lugar, se deben seleccionar las variables que intervendrán 
en el análisis factorial. 


A W Análisis factorial 
E ¿Diseño del producto [fe Variables: 


@ Nombre comercial [mar 
49 Precio [precio] 


@® Sello de buen proc 
@ Garantía de devol FE 


$ Preferencia [pref] 

















Variable de selección: 


Puntuaciones... | Opciones... | 


Selección de casos en el análisis factorial 

Para seleccionar los casos para el análisis, elija una variable de selección y pulse en 
Valor para introducir un entero como el valor de selección. En el análisis factorial, sólo 
se usarán los casos con ese valor para la variable de selección. 
















































SPSS SPSS 2 
e EXTRACCION 
Análisis factorial: Extracción Análisis factorial: Extracción 
Componentes principales J Método: y 
> Mare oi > Soc aaa der En a Pian ES Py ieee ene _Cancelr | 
© Matriz de covarianzas (Gráfico de sedimentación Amda | © Matriz de covarianzas (Gráfico de sedimentación Anda | 
Extraer 
(* Autovalores mayores que: _ (* Autovalores mayores que: hi 
© Número de factores: Be © Número de factores: E 
N? máximo de iteraciones para convergencia: [25 N? máximo de iteraciones para convergencia: — [25 
MÉTODOS 
Permite espe cificar o una MATRIZ DE CORRELACIONES o de Permite especificar el método de extracción factorial. Los métodos disponibles son: 
COVARIANZAS . bic PRINCIPALES 
e MINIMOS CUADRADOS NO PONDERADOS 
e MÍNIMOS CUADRADOS GENERALIZADOS 
e MÁXIMA VEROSIMILITUD 
e FACTORIZACIÓN DE EJES PRINCIPALES 
e FACTORIZACIÓN ALFA 
E pra e FACTORIZACION IMAGEN. 
SPSS 


SPSS ; 
e EXTRACCION 


Análisis factorial: Extracción 












Método: [Componentes principales 







Mostrar 
[Y Solución factorial sin rotar 


Analizar 


(* Matriz de correlaciones 






C Matriz de covarianzas | Gráfico de sedimentación 











Extraer 
(e Autovalores set 


fumero de factores: 


N2 máximo de iteraciones para convergencia: 25 









MOSTRAR 


E igerwalue 


Co mponent Number 


— Gráfico de sedimentación de los autovalores (Scree Plot) 


Gráfico de la varianza asociada a cada factor. Se utiliza para determinar cuántos 
factores deben retenerse. 


Típicamente el gráfico muestra la clara ruptura entre la pronunciada pendiente de 
los factores más importantes y el descenso gradual de los restantes 


27 - (los sedimentos). 











e ROTACIÓN 







Análisis factorial: Rotación 









(* Ninguno C Quartimax a 
C Warimax C Equamax _Cancelar | 















Ë 
e 





-28 - 


> Garantía de devolució | > | 


e 
D 






© Oblimin directo © Promax Ayuda | 
elta fo Kappa E 


Mostrar 

















Variables 







Nombre comercial [mai 
Precio [precio] 
Sello de buen product 


[ Gráficos de saturaciones 
















Preferencia [pref] 





Variable de selección 





Descriptivos 







Extracción 






Puntuaciones 











SPSS 


Un factor 










Análisis factorial: Rotación 


e ROTACIÓN 







Método 
(* Ninguno 





Quartimax 


O” Warimax O Equamax Varios factores 


© Oblimin directo © Promax 


P ke FF 


Clarifica ejes 





Mostrar 


Vv rotada | Gráficos de saturaciones 


= 


@ METODO 


Permite seleccionar el método de rotación factorial. Los métodos disponibles son: (ortogonales) 
VARIMAX, QUARTIMAX, EQUAMAX, y (oblícuos) oblimin directo y promax. 


VARIMAX Método de rotación ortogonal que minimiza el número de variables que tienen 
saturaciones altas en cada factor. Simplifica la interpretación de los factores. 


QUARTIMAX Método de rotación que minimiza el número de factores necesarios para explicar cada 
variable. Simplifica la interpretación de las variables observadas. 


EQUAMAX Método de rotación que es combinación del método varima.. Se minimiza tanto el número 
de variables que saturan alto en un factor como el número de factores necesarios para explicar una 
variable. 

-29 - 


SPSS 


Un factor 










Análisis factorial: Rotación 


e ROTACIÓN 







Método 
(* Ninguno 





Quartimax 


© Varimax © Equamax Varios factores 


C Oblimin directo Promax 


Clarifica ejes 





m Mostrar 


IV Solución rota l Gráficos de saturaciones 


Ee 


@ METODO 


Equamax: las absorción de varianza se reparte por igual entre 
los ejes 
Quartimax: La mayor parte de la varianza es absorbida por el 


primer eje 
Varimax: Intermedia entre Equamax y Quartimax 





variable. 
- 30 - 











spss PUNTUACIONES FACTORIALES 





Análisis factorial: Puntuaciones factoriales 


|” Guardar como variables 
Método 
ie Cancelar | 
C ; Ayuda | 


O 








Mostrar matriz de coeficientes de las punt. factoriales 





en pa 
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Abstract 
DNA microarray experiments result in enormous amount of data, which need careful snterpretation Biplot Approaches show 


simultaneous display of genes and samples in e ea pta d thus can be used to represent the relationships between 
genes and samples. There are several different types of biplots, and these methods need to be evaluated because each plot provides 
different result. 

In this paper, we review several variants of biplot methods such as principal component analysis biplot, factor analysis biplot, 
multidimensional scaling biplot and correspondence analysis biplot. We investigate the properties of these methods and compare 
their performances by analyzing various types of well-known gene expression data. We also suggest the supplementary data method 
illustrative variables, etc. The usefulness of this approach for interpreting microarray data is demonstrated. 
© 2007 Elsevier B.V. All rights reserved. 


Keywords: Gene expression data; Biplot; Supplementary data; Principal component analysis; Factor analysis; Correspondence analysis; 
Multidimensional scaling 








A 


nx2 

















nxp 


e Representación multidimensional: RP 


=" Hipernube 


Representación en baja dimensión 
Variables latentes o hipotéticas 





























BIPLOT: DEFINICIÓN INTUITIVA 





Un BIPLOT (GABRIEL, 1971) es una representación gráfica de 
datos multivariantes. De la misma manera que un diagrama de 
dispersión muestra la distribución conjunta de dos variables, un 
BIPLOT representa tres o más variables. (GABRIEL y ODOROFF, 
1990). 





p variables (vectores) 
n individuos 
+ 


























Abstract 





DNA microarray experiments result in enormous amount of data, which need careful interpretation 
simultaneous display of genes and samples in low-dimensional graphs and thus can be used to represent the relationships between 
genes and samples. There are several different types of biplots, and these methods need to be evaluated because each plot provides 
different result. —— 

In this paper, we review several variants of biplot methods such as principal component analysis biplot, factor analysis biplot, 
multidimensional scaling biplot and correspondence analysis biplot, We investigate the properties of these methods and compare 
their performances by analyzing various types of well-known gene expression data. We also suggest the supplementary data method 
as a tool for (1) classifying the previously unknown sample/gene to existing class, (11) analyzing mixture data and (11) presenting 
illustrative variables, etc. The usefulness of this approach for interpreting microarray data is demonstrated. 
© 2007 Elsevier B.V. All rights reserved. 





Keywords: Gene expression data; Biplot; Supplementary data; Principal component analysis; Factor analysis; Correspondence analysis; 
Multidimensional scaling 





1900 


X PCA 
(1901) 


ex XT XIX 


ECKART y YOUNG (1936, 1939) 


ale 


T PCA 
X = U y (1933) 

(1936) = 
U es una matriz cuyos vectores columna son 


ortonormales y vectores propios de XX’. 


V es una matriz ortonormal cuyos vectores columna 
son vectores propios de X'X 


D es la matriz diagonal de valores singulares de X, que 
son las raices cuadradas no negativas de los valores 


propios de X'X T 
AB Biplot 
Gabriel === 
(1971) 


JK*-Biplot GH!-Biplot 





(Gabriel, 1971) 
































PCA" 
HJ-BIPLOT 1901) 
(Galindo,1986) 
EL HJ-BIPLOT es un representación gráfica 
multivariante de las líneas de una matriz Xnxp 
mediante los marcadores j,,......,j, para sus filas y 
i PCA 
h,, ....h, para sus columnas, elegidos de forma que a935 L 
ambos marcadores puedan ser superpuestos en un (5°) 
mismo sistema de referencia con maxima calidad 
de representación (Galindo, 1986) le 
UNA ALTERNATIVA DE REPRESENTACIÓN SIMULTÁNEA: HJ-BIPLOT GH/JK 
M.* PURIFICACIÓN GALINDO VILLARDÓN Biplot 
UNIVERSIDAD DE SALAMANCA GABRIEE=" 
(1971) 
a Oe | Se es ES —_ HJ-Biplot 
pre A, oa oe arg nag on Bacarra sr siml tón y > ss de debe = ool alll Galindo "A 
Questiió J~BI LOT, en la sual las coordenadas para las 20 lw 128 rotinet len son los mirvadorea para (1986) 
VOLLO NES rare las fetes an st sal biplot de Gaerne. Batas coordenadas pueden ser representados en 
pp:13-23 MitLivnna<—iu °° iai a =] 
uestra también, que el HJ-biplot, para m m 
presenta R-baricd a 

















¿Cómo se interpreta un HJ-BIPLOT? 





























MEP 
os (e E ES 
ind [Kor | ee SET 





Cuanto más distantes aparezcan los puntos que representan 
a las variables del centro de gravedad, más variabilidad 
habrán presentado esos caracteres en el estudio 

















Correlación 
Positiva 





Cuanto menor sea el ángulo que forman dos vectores que 
unen el centro de gravedad con los puntos que representan a 


las variables, mayor correlación ANGULO OBTUSO indica Relación inversa entre las variables 





























Angulo recto indica independencia 


Var 


Ind2 


© 
ind60 







HJ BIPLOT 


A partir del grafico se puede conocer 


ind3 ind1 
O 


Var2 





@ Ind4 


Var5 








Var4 








La variabilidad de 
las variables: 


observando la longitud del 
vector 


La covariacion de 
las variables: 


observando el angulo 


La similitud en el 
patron de los 
individuos: 


analizando su proximidad 














eje | 











Variable de eje Il 

















lano 














===> SOFTWARE 


MULEMIPLOT 


ee Te 


José Luis Vicente Vilardón 


HF Classical Biplot-MultBiplot. Multivariate Analysis using Biplots 


| 
E http://biplot.dep.usal.es/classicalbiplot/ 


[EEE ALTERNATIVAS DE CÓDIGO ABIERTO 


GGEBiplotGUI: interactive GGE Biplots in R 
Para descargar: http://cran.r-project.org/web/packages/GGEBiplotGUl/index.html 


¿Cómo citar?: http://cran.r-project.org/web/packages/GGEBiplotGUI/citation.html 


Ana Belen Nieto Librero, Nora Bacala y M* Purificación Galindo Villardón (2011) 
multibiplotGUI: Multibiplot Analysis in R 


http://cran.r-project.org/web/packages/multibiplotGUI/index.html 


Faria, J.C & Demetrio, C. G. B (2011 
gi PA @-Forge 


BPCA: Biplot of multivariate data based on Principal Compone: The BiplotGUI package homepage 


The BiplotGUI package for R makes it easy to construct and interact with biplots. 


Para descargar: http://cran.r-project.org/web/packages/bpca/ Biplots 


: $ . 4 P Biplots can be interpreted as graphs in which observations are represented as points while, simultaneously, variables are represented as 
¿Cómo citar? http://cran.r-project.org/web/packages/bpca/Citatio calibrated biplot axes. Such representations make it easy to visualise multivariate data in two or three dimensions. The biplots of the BiplotGUI 
package are based on the book by Gower and Hand (1996) and can be thought of as multivariate analogues of the ordinary scatter plot. 

















http://diarium.usal.es/pgalindo/ 
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eBIPLOT? 


Abstract 







DNA microarray experiments result in enormous amount of data, which need cardful interpretation. Biplot approaches show 
simultaneous display of genes and samples in low-dimensional graphs and thus can be ted to represent the relationships between 
genes and samples. There are several different types of biplots, and these methods need Wye evaluated because each plot provides 
different result. GH-BIPLOT 

In this paper, we review factor analysis biplot, 
multidimensional scaling biplor and correspondence analysis Diplot. We nvestigate the properties of these methods and compare 


ression data. We also suggest the supplementary data method 
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A - 







“AS a foo! for (1) classifying the previously unknown sample/gene To existing class, (11) analyzing mixture data and (111) presenting 


Ilustjimiamatiigennlos, eine usefulnes: socias microarray data is demonstrated. 
O A Se vicr B.V. ¡ts racary, 
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Professor Ruben GABRIEL (University of Rochester, U.S.A.), trying to find a Biplot at 
the bottom of the well, in the cloister of “Arzobispo Fonseca Palace” (Salamanca 
University, Spain) 
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COLINEALIDAD 


Departamento de ESTADISTICA 


Universidad de Salamanca 


ESTIMADORES 





Los coeficientes de regresión se 
interpretan como el efecto de la 
variable X | en la variable dependiente 
Y, cuando el resto de las variables se 
mantienen constantes; es decir, el 
cambio producido en la variable 
dependiente Y por cada incremento 
unitario en la regresora X 
manteniendo constante el resto de las 
predictoras. 





TUN AFA. 


pp 





Coeficientes de regresión estandarizados: 





Cada Beta, (estandarizado) se interpreta como 
el cambio, en unidades de desviación típica, en 
la variable dependiente, por cada cambio en 
una desviación típica en la variable 
independiente Xi, manteniendo el resto de las 
variables independientes constantes. 


Equivale a realizar una regresión sobre datos 
estándarizados 
(media cero, desviación tipica 1) 

















COLINEALIDAD 


Cuando las variables 
explicativas estan 
relacionadas se dice que 
hay colinealidad. 


En presencia de colinealidad 
los coeficientes de regresion 
son inestables y por tanto no 
son interpretables 





SINTOMAS DE COLINEALIDAD 


-1.- Altas correlaciones entre 
al menos un par de variables. 


-2.- Aparece como no significativa 
alguna variable 

que el investigador sabe que es 
importante. 


-3.- Los errores estándar de los 
estimadores son anormalmente 
grandes, disminuyendo 
drásticamente al eliminar una o 
varias variables regresoras. 








La colinealidad puede estar presente 
sin que estos síntomas sean 
evidentes... 


El ususario puede identificar los posibles síntomas de 
COLINEALIDAD, pero el diagnóstico y el tratamiento requiere 
la participación de un estadístico experto en Modelos de 
Regresión 
























The United States Surgeon General, considera cada una de estas sustancias peligrosas : 
para la salud de los fumadores. Estudios ya realizados, ponen de manifiesto que OBJ ETIVO: 


¡incrementos en el contenido de alquitrán y nicotina de los Encontrar un modelo que nos permita estimar la cantidad de 


j cigarrillos vienen acompañados por incrementos en el MONOXIDO de CARBONO, a partir de las variables Alquitrán, — 


y d 
———SS monoxido de carbono emitido al fumar. Nicotina y peso del ciga rrillo Modelo | Mo Í Monox. Carbono 
CLASE | ALQUITRAN | NICOTINA | PESO MONÓXIDO i l 
4,10 0,860 0,9853 
16,00 1,060 1,0938 | 
29,80 2,030 1,1650 
8,00 0,670 0,9280 : Las regresoras (variables explicativas) son: 
4,10 0,400 0,9462 , X; : contenido de alquitrán, 
15,00 5040 0,8885 X, : contenido en nicotina, 
8,80 0,750 1,0267 y ñ 
X;: peso del cigarrillo 


12,40 0,950 0,9225 
16,60 1,120 0,9372 Xa: clase de tabaco 


14,90 1,020 0,8858 
13,70 1,010 0,9643 
15,10 0,900 0,9316 
7,80 0,570 0,9705 
11,40 0,780 1,1240 
9,00 0,740 0,8517 
1,00 0,130 0,7851 
17,00 1,260 0,9186 
12,80 1,080 1,0395 
15,80 0,960 0,9573 
4,50 0,420 0,9106 
14,50 1,010 1,0070 
7,30 0,610 0,9806 
8,60 0,690 0,9693 
15,20 1,020 0,9496 
12,00 0,820 1,1184 


' MODELOS UNIVARIANTES 








Modelo M R Monox. Carb= 3.88+0.73 Alquitrán 
R?= 0.82 


La Variable dependiente es Y: contenido en monóxido de carbono 









Monox. Carb= 1.67+12.40 Nicotina 
Modelo My, pain 





ALQUITRAN | NICOTINA PESO 
16,00 1,060 1,0938 R?= 0.215 
29,80 2,030 1,1650 
8,00 0,670 0,9280 
4,10 0,400 0,9462 


15,00 1,040 | 0,8885 Modelo Min» EOD] Sen VIC MEAN EES 








OBJETIVO: 
Encontrar un modelo que nos 
permita estimar la cantidad de 
MONOXIDO de CARBONO, a partir 
de las variables Alquitrán, Nicotina 
y Peso del cigarrillo 


8,80 0,750 1,0267 

12,40 0,950 0,9225 

16,60 1,120 0,9372 ae 

14,90 1,020 0,8858 Carbono = B, FP p Alquitrán FP B, 

13,70 1,010 0,9643 i Me. . 
15,10 0,900 0,9316 „4 Coefficients” 


2190 0:570 0,3703 : Unstandardized Standardized 
11,40 0,780 1,1240 i Coeffici Coeffici 
9,00 0,740 0,8517 vellicients octhicients 


1,00 0,130 0,7851 
17,00 1,260 0,9186 > Std. Error 
12,80 1,080 1,0395 „d ma 


15,80 0,960 0,9573 

4,50 0,420 0,9106 9 l 
14,50 1,010 1,0070 | alquitrán 
7,30 0,610 0,9806 X nicotina 
8,60 0,690 0,9693 

15,20 1,020 | 0,9496 


12,00 0,820 1,1184 a. Dependent Variable: monox carb, 


“Using Cigarette Data for an Introduction to Multiple Regression”, by Lauren Mcintyre | 
in Volume 2, Number 1, of the Journal of Statistics Education. | 

















OBJETIVO: 


Encontrar un modelo que nos permita estimar la cantidad de 
MONOXIDO de CARBONO, a partir de las variables Alquitrán, 
Nicotina y peso del cigarrillo 


SEN 


¿COLINEA 


n gma g Cad] ' 
Correlations 


Faun | rca | peso 


ALQUITRAN NICOTINA PESO lod | 

ALQUITRAN | NICOTINA PESO. alquitrán Pearson Correlation | 1,000 | 945 461 
16,00 1,060 1,0938 is $ 4 
29,80 2,030 1,1650 š Sig. (2-tailed) 000 020 
8,00 0,670 0,9280 h 

410 | 0,400 0,9462 | 5,40 N 25,000 i 


Analizar 


Condition Number 








Condition Index 


15,00 1,040 0,8885 


a e e A nicotina Pearson Correlation | 945 a 49 

ao eT Sig. (2-tailed) 000 01 

13,70 1,010 A t 
= 15,10 0,900 EW: N 


7,80 0,570 


: o 25 
a T oo E l Pearson Correlation | 461 | 499 | 1,000 
oao 0957 | N | 25 | 25,000 


elo | t, Correlation is significant at the 0.01 level (2-tailed) 


0,690 


1,020 | "Correlation is significant at the 0.05 level (2-talled). 


0,820 


VIF 


Contribuciones de 
cada componente al 
factor de inflación de 
varianza 





























E ae ¡SACAMOS EL ALQUITRAN 





















































dl Analyze Graph Jtilities Add-ons Window Dependent: 
Reports > “> [8 monox.carb. [MONÓXIDO 
Descriptive Statistics > y. tipo tabaco [CLASE] Block iori nnn 
Tables > alquitran [ALQUITR... ‘ an? | ——_— a 
CLASE | ALQUITRAN | NICOTINA | PESO | MONÓXIDO Compare Means > $ nicotina [NICOTINA] “Previous >) E Collinearity Diagnostics? Collinearity Diagnostics 
RUBIO. | 4,10 | 0,860 0,9853 | ,60 General Linear Model » $ peso [PESO] Independentís): 
NEGRO 16,00 1,060 | 1,0938 ; Generalized Linear Models » $ alquitrán [ALQUITRAN] Variance Proportions Variance [Variance Proportions | ortions 
NEGRO | 29,80 2,030 | 11650) 3, Mixed Models > cs $ nicotina [NICOTINA] 
pmo soo oso | oszso | 1020 || Coa > ai aia S) Siono IM AAA AAA es | oa st | 
RUBIO 4,10 0,400 0,9462 Regression d Linear... Regression Coefficients Í Model fit ` í | nsion 
NEGRO 15,00 1,040 0,8885 Loglinear > Curve Estimation... me 00 00 00 cnr 
| | Neural Networks > R. Partial Least Squares... stimates FR squared change 
RUBIO 8,80 0,750 1,0267 eural as q g 
RUBIO 12,40 0,950 | 0,9225 | MÍ Confidence intervals M Descriptives 1084 5,874 ll a 
NEGRO 1660 1120 | 09372 | ee 003 30,049 | | | 99 | 
RUBIO | 14,90 1020 | 0,8858 | f : l q 
RUBIO 13,70 1010 | 0,9643 | ¿Hay colinealidad? a. Dependent Variable: monocarb. a. Dependent Variable: monox.carb. 
RUBIO 15,10 0,900 0,9316 : Collinearity Diagnostic, 








RUBIO | 7,80 | 0,570 0,9705 f 
RUBIO | 11,40 0,780 | 1,1240 | 
RUBIO 9,00 0,740 0,8517 | 


RUBIO. 1,00 0,130 0,7851 
NEGRO 1700 117260 0,9186 | 
RUBIO. 12,80 1,080 1,0395 | 
NEGRO | 15,80 0,960 0,9573 
RUBIO 4,50 0,420 0,9106 
NEGRO 14,50 1,010 1,0070 | 
RUBIO 7,30 0,610 | 0,9806 | 


NEGRO 8/60 0,690 0,9693 | 


NEGRO 15,20 1,020 | 0,9496 | 
RUBIO 12,00 | 0,820 1,1184 





——— Proportions 


Condition 
o sr | aora Coral] eno 


Coefficients* 
Unstandardized [Standardized Collinearity 








Coefficients Coefficients Statistics 









Standardized 

= SETA Coefficients ae 95% Confidence Interval for B E Statistics 

E y 
— —— 356 de 10,767 

alquitrán ; =, Jl ; : 

12,384 9,992 14,955) zs En 

peso 021 10,483 751 | 1332 | 

a. Dependent Variable: monox carb. a. Dependent Variable: monox.carb. 


























a. Dependent Variable: —— 


Cond Number>30 








Coefficients* 
Unstandardized Standardized 95% Confidence Interval Collinearity 
Coefficients Coefficients for B Statistics 
; Lower Upper 
Std. Error Beta Sig. Bound Bound [Tolerance] VIF 


1,838 ; 10,964 d 
A 647 ,107 9,382 
: A 10,637 5750 






Model Summary 


i guare the Estimate quare the Estimate 
1 | or | 868 ||  849|| 1,84332 | G [orm] ese saN 1,86341 


a. Predictors: (Constant), peso, alquitrán, nicotina 







¿Afectadas? 
VIF>10 














Las variables Nicotina, Alquitrán 
explican el 85.2% de la información 


Model Summary 


Change Statistics 
O guare the Estimate Change F Change Sia. F Change 


(926 [1 358 | 852 [| 182247 139326 | | 23[__ ,000| 


a. Predictors: (Constant), nicotina 





Regresión sobr 
componentes 
principales 





or <0.05 


moe | ames | ar {veansowre | e | so Py 105 datos contienen 


Regression 462,758 462,758 ; de 
información 
539,150 


a. Predictors: (Constant), nicotina 
b. Dependent Variable: monox.carb. 











a coeffcens Coefficients a cients qe Confidence Interval for B 


nicotina 12 397 11 "804 10 224 14 570 


a. Dependent Variable: monox. — 


e OTRAS alterna 


Block 1 of 1 


H 


Independent(s): 
$ alquitrán [ALQUITRAN] 


e] $ nicotina [NICOTINA] 0 
—— |£ peso [PESO] 






El modelo es: 


Collinearity Fininienwel 
ENOR aan y GF PESO 


no explican” nada 
Partial . 
orrelation Terane diferente de lo que yí 


peso i = i 


a. Predicto e — (Constant), nicotina 
b. Dependent Variable: monox.carb. 











Excluded Variables 


















Stepwise 
Remove 

Backward 
Forward 













Case Labels: 
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META-ANALISIS 


a Nx, 





Medicina-Basaca.en.la-Evidencia 


Jano 1997. LIII (1218): 71-72 








Niveles de evidencia 


Escala de Sackett De mejor evidencia) a 5 


RS con homogeneidad de EAC: OS clínicos controlados y O IES 
de alta calidad (doble ciego, analizados según intención ‘de tartar...) 1 


RS con heterogeneidad de EAC de alta calidad 


RS con homogeneidad de EAC de menor calidad 
EAC individuales 


Cohortes 
Casos y Controles 


Serie de casos clínicos 


Opinión de expertos 











¿Qué se entiende por Meta-Análisis? 
El fundamento de la ciencia se basa en la acumulación de conocimientos. 


INVESTIGACIÓN INVESTIGACIÓN 
PASADA E > FUTURA 


| 


TRADICIONALES. META-ANÁLISIS (GLASS, 1976) 


«Subjetividad “El conjunto de métodos cuantitativos para la 
comparación y combinación de resultados a 
partir de estudios analíticos y similares”. 





«Dificultad en englobar resultados 


cuantitativos 
Pooling (Peto y cols. 1977) 


*Falta de herramientas para sustraer 
grandes cantidades de información. 


Overview (Yusuf y cols., 1985) 





Análisis cuantitativo de domínios de investigación 
(Rosenthal, 1984) 


Revisión Cuantitativa (Green 8 Hall, 1984) 








PEE oe 


En los estudios meta-analíticos se establecen una 
serie de etapas las cuales deben ser minuciosamente 
controladas ¡para desarrollar correctamente la 
revisión cuantitativa. 








E 


1.- Formulación del problema. 
2.- Búsqueda de la literatura. 
3.- Codificación de los estudios. 
4.- Medida de los resultados. 


5.- Análisis e interpretación de resultados. 











FORMULACIÓN DEL PROBLEMA 


Y SE DEFINE UN OBJETIVO PRIMARIO EN EL CUAL SE 
HACE REFERENCIA AL IMPACTO QUE PRODUCE CIERTA 
INTERVENCION EN UN CONTEXTO DADO. 


Y SE PRESENTAN UN CONJUNTO DE OBJETIVOS 
SECUNDARIOS RELACIONADOS QUE AYUDAN A LA 
COMPRENSION DEL PROBLEMA, INTERACCIONES, 
ESTUDIOS DE SUBPOBLACIONES 


Introduccion del tema 


Definicion de los objetivos 


Definición de los criterios de inclusion de 
estudios. 


Identificacion de las fuentes de busqueda 


PROTOCOLO 


Descripción de la información extraible. 


Descripción de los análisis a realizar. 











i FORMULACIÓN DEL PROBLEMA 
Un ejemplo... 





Objetivo primario 
Investigar la eficacia de sedación en términos de calidad, seguridad y coste del 
tratamiento de midazolam en comparación con propofol a partir de los ensayos 
aleatorizados que comparan ambos fármacos en pacientes con ventilación 
mecánica. 


Objetivo Secundario 


Además identificar posibles subgrupos de pacientes, así como posibles interacciones definidos por las 
siguientes factores: 


> Duración de la sedación (Corta: <24h; Larga:>24h.) 
> Tipo de afección del paciente (quirurgica, medica; mixta. 








L os pacientes deben ser asignados a los dos grupos experimentales 
(propofol/midazolam) de forma aleatoria. 


Los ensayos deben valorar alguna de las variables respuesta. 





mecánicamente en UCI. 





Los pacientes deben estar ventilados 











Variables medidas 


e Tiempo de recuperación después de la sedación: 
+ Tiempo en despertar 
+ Tiempo hasta la desconexión 
+ Tiempo de estancia en UCI. 


| e P orcentaje del tiempo de sedación en el nivel deseado. 
| e Valoración de la calidad de sedación 


e Ajustes en las dosis para la obtención de la sedación ideal. (Tanto de los respectivos 
sedantes como otros fármacos administrados conjuntamente) 








e Variables hemodinámicas (Presión arterial (Sistólica y dia stólica), índice cardiaco, 
frecuencia cardiaca) 


| e M edidas respiratorias (PaCO», PaO2, VO2, VCO)). 


* Indices analíticos: 
+ función hepática: Transaminasas (GOT, GPT), 
Bilirubina y Lípidos. 
+ Colesterol 
+ T riglicérido 


e Número de fracasos terapéuticos:debidos tanto a la ineficacia de sed ación como a sus 
complicaciones (Hipotension, incremento en el nivel de Trigliceridos). 





¡+ Mortalidad 


e Coste 


+ Coste de adquisición de los fármacos 
+ Coste de cuidados del paciente con los dos farmacos. 
+ Coste total de los farmacos. 








EAS 


En los estudios meta-analíticos se establecen una 
serie de etapas las cuales deben ser minuciosamente 
controladas ¡para desarrollar correctamente la 
revisión cuantitativa. 








E 


2.- Búsqueda de la literatura. 
3.- Codificación de los estudios. 
4.- Medida de los resultados. 


5.- Análisis e interpretación de resultados. 











BUSQUEDA DE LA INFORMACIÓN 


Permite localizar estudios asociados a 
determinadas palabras clave en las 
bases de datos correspondientes al 
campo de la revisión: Medline; Sociofile; 
Biological Abstract; Psychofile;etc 








Servicios de Abstracts => 








Procedimiento Descendente 


Consiste en localizar investigaciones 
previas que figuran en listas de 


=, referencias de articulos disponibles por el 


Fuentes primarias 
revisor. 


Procedimiento Ascendente 


Consiste en localizar investigaciones las 
cuales citan los trabajos recuperados: 
indices de citas. 


El revisor debe intentar contactar con los 
investigadores expertos en el tema revisado 


Fuentes Informales => para la obtención del material bibliográfico 


que pueda proporcionarle. Es un método 
interesante para la obtención de artículos no 
publicados. 














Búsqueda en 
bases de datos 





BUSQUEDA DE LA INFORMACIÓ 





POBLACION 
OBJETIVO 








Contacto con 
los investigadores 
expertos 





en bibliografia | LL 


de estudios 
recuperados 





POBLACION 
ACCESIBLE 











SESGO DE PUBLICACION 


EVIDENCIA CLARA DE QUE LOS ESTUDIOS SIGNIFICATIVOS SON MAS PROBABLES DE 
PUBLICAR QUE LOS NO SIGNIFICATIVOS. 


WAGNER (1986) DEMOSTRO QUE TANTO LA DECISION DE ENVIAR, COMO LA VALORACION 
DE LOS ESTUDIOS, ESTABA ASOCIADA CON LOS RESULTADOS DELA PUBLICACION. 


ENVIADOS PARA ACEPTACION 
DE LOS ESTUDIOS SIGNIFICATIVOS: 82%. 
DE LOS ESTUDIOS NO SIGNIFICATIVOS. 43%. 


LOS ARTICULOS ADMITIDOS PARA REVISAR. 
DE LOS SIGNIFICATIVOS: 80% FUERON ACEPTADOS. 
DE LOS NO SIGNIFICATIVOS: 50% FUERON 
ACEPTADOS. 


Recogida de la informacion 
relevante que aporte evidencia 
en relacion al objetivo 


No suele haber mas de 30-40 articulos 





















POBLACIÓN 
ABLACIÓN» 
PALI. 

Conserve 7 


RECUPERACION 
DE LOS ESTUDIOS 





En nuestro ejemplo... 

















Busqueda 
en bibliografia 
de estudios 
recuperados 


Búsqueda en 
bases de datos 


V 116- Total 
V. 39- Se ajustan a los criterios de 
inclusión 
(8 actas de congreso; 31 de revistas) 


Contacto con 
los investigadores 
expertos 










Medline 
Biosis 
Excerpta Medica 






















IAEA 


En los estudios meta-analíticos se establecen una 
serie de etapas las cuales deben ser minuciosamente 
controladas ¡para desarrollar correctamente la 
revisión cuantitativa. 


E] 








3.- Codificación de los estudios. 
4.- Medida de los resultados. 


5.- Análisis e interpretación de resultados. 











ETAPA DE CODIFICACIÓN 


OBJETIVOS 


v Recoger y estudiar la información de los 
estudios que puede estar relacionada con los 
resultados cuantitativos que pueden explicar 
los resultados finales 


v Valorar los estudios en términos de “calidad” 


ETAPA DE CODIFICACIÓN 


PROCESO DE CODIFICACIÓN 


-Elaboración de un cuestionario 


- Elección de jueces 


Características Características 


Objetivas Subjetivas 


«Número de pacientes en cada estudio eValoración de los análisis estadísticos 


*Año de publicación del estudio Valoración del diseño 


eCriterios de inclusión/exclusión 


eValoración de la presentación de 


resultados 


eTipo de cegado 


«Número de hombres/mujeres «Adecuación del tipo de cegado 


eetc 





eEdad de los pacientes (Media, 
Desviación típica, ...) 


eetc 














N ú mero de pacientes en cada grupo 


Año de publicación del estudio 

N ú mero de mujeres/ hombres 

E dad en años (media/ desviación típica o rango) 

Peso medio de los pacientes 

E xistencia de criterios de exclusión de pacientes (Si/ No) 

Tipo de cegado del diseño (Doble ciego/ Simple ciego/ No ciego) 
P roporción de pacientes excluidos del ensayo. 


Do sis de los diferentes fármacos 


* Utilización de otro tipo de sedación utilizada conjuntamente con los sedantes de 


interés (Anagélsicos/ Morfínicos/Otro tipo de sedación) 












e Valoración de los análisis estadísticos 
e Valoración del diseño del estudio. 
e Valoración de la presentación de los datos. 





En nuestro ejemplo... 











ETAPA DE CODIFICACIÓN 


e Diferentes valoraciones de los jueces 
e Errónea definición de los items. 


AL — 


Protección de la fiabilidad 





Análisis de la fiabilidad 


Definición de las características 


Normas y reglas de codificación 








Aplicación de pruebas piloto para las 
detección de cuestiones mal 







MC 


entreestudios 


MC 


entreestudios 


- Mi Cae 


R= 


planteadas o ambiguas 





n= n° de codificadores 
r= es la media entre los 
n.(n-1)/2 coeficientes de 


2 


rrelación 


Entrenamiento de los codificadores 
para la perfecta interpretación de los 
items. 


Coeficiente Kappa 














AAN 


En los estudios meta-analíticos se establecen una 
serie de etapas las cuales deben ser minuciosamente 
controladas ¡para desarrollar correctamente la 
revisión cuantitativa. 


|| 





3.- Codificación de los estudios. 
4.- Medida de los resultados. 


5.- Análisis e interpretación de resultados. 


MEDIDA DE LOS RESULTADOS 


Para poder integrar los resultados de un conjunto de estudios es preciso que se expresen en 
una escala de medida común. En general las variables dependientes empleadas en los 
estudios difieren entre si razón por la cual, no son directamente comparables. 


Permite determinar 
“en qué medida” el 


Permite determinar si 
el efecto es distinto 


de cero efecto es distinto de 
P-VALOR cero 
TAMANO 
DEL EFECTO 











Cuantitativa 


Cuantitativa Dicotomica Tiempo 


OCorrelacion URazón de Riesgos 


ODiferencia de medias URiesgo Relativo 





ODiferencia de medias URiesgo Absoluto 
Estandarizada DOdds-Ratio 














M. Independientes 


Estimación tamaño del efecto 


Diferencia de medias 








Estimador Varianza 
a fx = 2 2 
Y Bp = Ze af E le 
Nr Nc 














M. Independientes 


Estimación tamaño del efecto 


Diferencia de medias estandarizada 
Cohen 1967 

















Estimadores 














Estudios de simulación (HEDGES, 1982) para conocer el 
funcionamiento de los estimadores de Hedges, han puesto de 
manifiesto que: 


El estimador insesgado dy proporciona mejores estimaciones 
cuando el tamaño del efecto es grande, O cuando el número de 
individuos en cada estudio es pequeño. 















































GLASS 1976 HEDGES 1981 HEDGES 1981 
= = = = Cuando el tamaño del efecto es moderado o pequeño y/o los 
ato Xr =Xc d, =c(m)d E 
B AAA U B tamaños muestrales son grandes, el sesgo de d, es despreciable 
c 2 3 
2 
Oa es a 
(np Ds; (Ne = N86 2 ea 
Sesgado y E 
Sesgado Insesgad 
TE VARIANZA 
F In RR Varn RD- + 
Variable Respuesta a 3 (a+b)a (c+d)c 
] E . = re = PE+/FR+ ah DR 
Cuantitativa Dicotómica Tiempo je ae es 
PCE + ER) = —— = Pear a aa 
© a 
cs 3 P(E +/FR+) = — 
5 S ORazón de Riesgos a+ b O, = 2 REWER: 
E E P(E -/FR+) = — b Pr-rr 
e = a 
= e3 
= A InOR Varn OR) == +7424 
z P(E + /FR-) = E c p 
a a A 
= P(E = /FR-) NN Ae 
3 S URiesgo Relativo 
S 5 ORiesgo Absoluto 
bd OOdds-Ratio 
=] 


P-P), p_(l —p_) 


NER+ NFR- 








a 
P(E +/ FR+) = — = PEFR 
a+b 
c 
P(E +/FR-) = — = PEFR 
c+d 











En nuestro ejemplon te DID A DE LOS 
RESULTADOS 


Tamaño del Efecto 


- Od ds-ratio. 


- Diferencia de Medias Estandarizada.. 





_ MT = he 
oO 


ô 


Estimador 
Sesgado 


dy =c(m)g 


m 
r=) 
2 


m m — 1 
—[]| -_ 
2 2 


Insesgado 


EAS 


En los estudios meta-analíticos se establecen una 
serie de etapas las cuales deben ser minuciosamente 
controladas para desarrollar correctamente la 
revisión cuantitativa. 


E 








5.- Análisis e interpretación de resultados. 




















EPREDA+ 1990 
Hauth+ 1993 
Sibai+ 1993 
Viinikka+ 1993 
Wallenburg+ 1986 
Schiff+ 1989 
McParland+ 1990 
Railton+ 1988 
Benigni+ 1989 
CLASP+ 1994 
Dekker 1989 
TTALIAN+ 1993 


0.005 0.05 0.2 1 
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Metaanálisis: el uso de los métodos estadísticos 
en revisiones de estudios de investigación relacionados 


M.P. Galindo Villardón 


Departamento de Estadística y Matemática Aplicadas. Universidad de Salamanca. 


Introducción 


Uno de los principios fundamentales de la investigación cien- 
tífica es que debe tener la oportunidad de ser replicable. Los 
resultados de una investigación aislada no se pueden elevar a la 
categoría de hechos científicos hasta que no hayan sido contras- 
tados por otros investigadores. 

El considerable trabajo invertido en la realización de una 
investigación aporta tan sólo una pequeña pieza de un enorme 
rompecabezas, es preciso retomar investigaciones anteriores in- 
troduciendo variaciones en el procedimiento para poner a prue- 
ba la consistencia o la robustez de un determinado hecho empí- 
FICO. 

Este carácter acumulativo del conocimiento científico requie- 
re que entre la investigación pasada y la futura se incluya una 
etapa intermedia imprescindible para su progreso: la revisión de 
la literatura y la resolución de las contradicciones empiricas. 
Dado su importante papel. las revisiones de investigación han 
suscitado un creciente interés en un gran número de ciencias y 
muy especialmente en medicina. 

Su nombre más conocido es metaanálisis! aunque otros auto- 
res lo denominan revisión cuantitativa, integración de investiga- 
ciones o análisis cuantitativo de dominios de investigación. 
Dickersin et al han publicado recientemente un artículo” sobre 
la necesidad de estandarizar la terminología para facilitar la 
búsqueda de bibliografía. La National Library of Medicine, 
desde 1989, utiliza el término metaanálisis. 

Lo esencial de esta transformación metodológica proviene de la 
introducción de los métodos estadísticos en el proceso de revisión 

Aunque los primeros intentos de desarrollar métodos cuanti- 
tativos para integrar resultados de investigación se remontan a 
los años treinta con Fisher y Pearson, esta metodología no había 
despertado demasiado interés. Sin duda, son los trabajos de 
Glass et al los que han impulsado la práctica y, con ella, el 
desarrollo de las técnicas cuantitativas de integración, cada vez 
más sofisticadas. Fruto de este interés es la publicación de 
varios textos de metaanálisis en los últimos años, entre ellos, 
cabe destacar?” el interesante “Etapas de un metaanálisis”. 

Rosenthal en su trabajo”, fijándose en el paralelismo que debe 
existir entre una investigación primaria y un metaanálisis. dife- 
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rencia seis etapas básicas por las que debe discurrir cualquier 
síntesis de investigación: 


1. Formulación del problema. 

2. Búsqueda de la literatura. 

3. Codificación de los estudios. 

4. Medida de los resultados. 

5. Análisis e interpretación de resultados. 

6. Publicación del estudio. 

Cada una de estas etapas obliga al revisor a adoptar decisiones 


que afectan directamente a los resultados de la revisión y, en 
consecuencia, son propensas a violaciones de la validez de las 


conclusiones. 


Formulación del problema 


Análogamente a como se lleva a cabo en las investigaciones 
primarias cuando se realice una revisión, sea o no cuantitativa, 
el primer paso consiste en especificar con la mayor rigurosidad 


- posible ei tema concreto sobre el que se va a recoger la informa- 


ción. j 

En todo estudio metaanalítico deben estar claramente delimi- 
tados los objetivos; deben ofrecerse definiciones conceptuales de 
las variables a fin de que queden claramente especificados los 
estudios primarios que son admisibles. 

Las variables deben ser definidas operativamente para que sea 
posible relacionar un concepto abstracto con un hecho observa- 
ble, conscientes de que un concepto definido en términos muy 
restringidos puede afectar a su generalidad y a las inferencias y 
un concepto definido demasiado ampliamente puede no tener 
una representación concreta de la población de estudios, propor- 
cionando una generalización exagerada de los resultados. 


Búsqueda de la literatura 


El paso siguiente a la definición del problema objeto de inves- 
tigación consiste en la identificación de todos los estudios que 
han tratado.dicho tópico. 
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La población objetivo de un metaanálisis está compuesta por 
todos los individuos que el revisor espera poder representar en 
el estudio. Pero en la práctica resulta materialmente imposible 
encontrar todos los elementos de una población objetivo. La 
población accesible incluirá a aquellos individuos que el revisor 
es capaz de localizar. 

Es requisito fundamental en un metaanálisis definir la pobla- 
ción objetivo y la población accesible, así como determinar en 
qué medida pueden diferir, ya que sı ambas no coinciden, cosa 
que ocurre en la práctica totalidad de los metaanálisis; esto 
puede suponer una importante amenaza para la validez de los 
resultados. 

Dos fuentes de información deben ser utilizadas para asegurar 
la adecuación de la población accesible a la población objetivo: 


Fuentes informales: consisten en conectar con expertos en el 
tema de interés de cara a obtener el acceso a material nuevo o no 
publicado por parte de investigadores que trabajen en el mismo 
campo. También pertenecen a este apartado los trabajos presen- 
tados en Congresos profesionales. 


Fuentes primarias: recogen las consultas a bibliografías perso- 
nales y a revistas de investigación primaria. 


Cooper? distingue los siguientes tipos fundamentales de técni- 
Cas para la localización de estudios: 


El procedimiento ascendente, que consiste en localizar inves- 
tigaciones previas que figuran en listas de referencias de estu- 
dios ya disponibles. 

El procedimiento descendente mediante el que se localizan 
trabajos en los cuales se citan los documentos ya localizados, por 
ejemplo, consultando índices de citas. 

Búsqueda computadorizada, que puede cubrir los dos anterio- 
res procedimientos y que es hoy día la más rápida y eficaz. 


Las distintas fuentes no son excluyentes entre sí. 

Otra de las mayores críticas que pueden hacerse al metaanáli- 
sis reside en la constatación del sesgo de selección editorial a 
favor de estudios con resultados significativos. 

El problema del sesgo de publicación ha sido abordado mate- 
maticamente por Rosenthal y por otros autores. La solución que 
proponen no es definitiva pero es la que actualmente se utiliza 
para estimar la tolerancia (fail-safe number) de un estudio me- 
taanalítico a resultados nulos; es decir, para determinar el nú- 
mero de resultados nulos que deben existir en los archivos 
editoriales para alterar los resultados significativos de un meta- 
análisis. 

En el informe de cualquier metaanálisis debe aparecer infor- 
mación exhaustiva en relación a las fuentes de información 
analizadas, los años cubiertos en la búsqueda y las palabras 
clave utilizadas en la selección. Sólo de esta forma el lector 
podrá conocer la fiabilidad de la búsqueda y, por tanto, la 
validez de los resultados. 


Codificación de los estudios 


El revisor debe codificar las características de los estudios que 
supuestamente afecten a los resultados del estudio. Glass distin- 
gue entre características metodológicas y carcterísticas sustanti- 
vas; las primeras se refieren a los aspectos generales de la inves- 
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tigación, tales como la fecha y la fuente de publicación, el tipo 
de diseño de investigación, el tamaño muestral, las característi- 
cas de los sujetos, o la calidad de la investigación. Las Caracteris- 
ticas sustantivas son específicas del tópico en estudio. 

Este proceso de codificación suele formalizarse elaborando un 
cuestionario que incluya todas las características relevantes. 

El proceso de codificación de las características de los estu- 
dios constituye un problema de medida y, por tanto, está sujeto 
a las deficiencias de fiabilidad y validez del estudio. La falta de 
fiabilidad en la codificación puede deberse a falta de calidad 
de los informes o a errores del codificador. Si las reglas de codifica- 
ción no son lo suficientemente explícitas, distintos codificadores 
de un mismo estudio pueden realizar juicios diferentes. 

Para proteger la fiabilidad del proceso de codificación debe 
elaborarse un libro de codificación que incluya lo más exhausti- 
vamente posible las definiciones de las características, las nor- 
mas y las reglas de codificación. 

Es recomendable que el proceso de codificación se lleve a 
cabo por parte de un equipo de codificadores previamente en- 
trenados para la perfecta interpretación y utilización del libro 
de codificación. Este equipo evaluará una muestra aleatoria de 
todos los estudios incluidos en el metaanálisis. 

Debe llevarse a cabo un estudio sistemático de la fiabilidad 
intercodificadores; cuanto mayor sea el número de codificado- 
res mayor será la fiabilidad efectiva ya que los errores aleatorios 
de cada codificador se contrarrestan con los errores de los 


otros, 


Medida de los resultados 


En una investigación primaria la unidad de análisis de datos 
la constituyen las observaciones empíricas, pero en una revisión 
cuantitativa la unidad de análisis procede de los estadísticos ya 
analizados en los estudios primarios. 

Para poder integrar los resultados de un conjunto de estudios 
es preciso que se expresen en una escala de medida común. En 
general, las variables dependientes empleadas en los estudios 
difieren entre sí, razón por la cual no son directamente compa- 
rables. 

Este problema se ha intentado solucionar mediante la aplica- 
ción de dos estrategias diferentes: a) el uso de niveles de signifi- 
cación, y b) el uso de medidas de la magnitud del efecto. 


El nivel de significación 


«4 _ 9” 


Si disponemos del nivel de significación exacto p” que co- 
rresponde a cada contraste de significación realizado de una 
hipótesis común, el conjunto de niveles “p” unilaterales así 
obtenido es susceptible de ser analizado estadísticamente ya que 
convierte los resultados de los estudios a una misma medida. 

Esta estrategia presenta, sin embargo, varios inconvenientes, 
quizás el más claro sea que no proporciona información en 
relación a la magnitud del efecto experimental. 


El tamaño del efecto 


Green y Hall” afirman que la medida más informativa del 
resultado de una investigación es el tamaño o magnitud 
del efecto; fue Glass el principal responsable de la introducción 
de las medidas del tamaño del efecto (TE) en la integración 
cuantitativa de resultados de investigación. 
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Cuando la hipótesis nula es falsa, lo es en algun grado especifi- 
co, es decir, el tamaño del efecto es un valor concreto, distinto 
de cero, de la población. Cuanto mayor es estr valor, tanto 
mayor es el grado en que se manifiesta el fenómeno bajo estu- 
dio. 

El nivel de significación estadística sólo permite determinar si 
un efecto experimental es distinto de cero: el tamaño del efecto 
permite conocer en qué medida es distinto de cero. 

Una amplia gama de indicadores del tamaño del efecto pue- 
den encontrarse en la literatura, tanto paramétricos como no 
paramétricos (para más detalle. consultar los textos citados en la 
“Introducción”). 


Análisis de los resultados 


El carácter innovador del estudio metaanalítico alcanza su 
máxima dimensión en la etapa del análisis de los resultados. 
Esta aproximación implica una nueva perspectiva del desarrollo 
del conocimiento mediante la integración de los estudios indivi- 
duales. 

De manera similar a como ocurre en las investigaciones pri- 
marias. el metaanálisis exige al revisor que adopte las mismas 
normas de rigor científico en el análisis e interpretación de un 
conjunto de resultados de estudios diferentes. 

En la etapa de análisis e interpretación de resultados. una vez 
cuantificados los estudios mediante niveles de significación o 
mediante estimadores del TE, los resultados son sintetizados 
para obtener un índice global y representativo del conjunto de 
estudios. Pero los datos integrados en un metaanálisis deben ser 
lo suficientemente homogéneos entre sí como para suponer que 
la medida global es representativa de todos los estudios. 

Los primeros trabajos metaanalíticos de Glass et al proponian 
el uso único y exclusivo de estadísticos descriptivos para sinteti- 
zar los resultados globales del metaanálisis. A este respecto. el 
enfoque exploratorio, tablas del tipo stem-and-leaf y gráficos 
esquemáticos del tipo Box-plot resultan especialmente indicados 
para describir los resultados, pero es evidente que son necesarias 
más pruebas estadísticas para los estudios metaanalíticos. 

Glass señala como única solución las técnicas descriptivas 
basándose en que los datos procedentes de un metaanálisis no 
suelen cumplir los requisitos de las pruebas inferenciales tradi- 
cionales. Es común encontrar estudios metaanalíticos que apli- 
can las pruebas estadísticas convencionales (ANOVA, análisis 
de regresión. etc.) como si se tratara de investigaciones prima- 
rias. Sin embargo, son probables serias violaciones de las hipóte- 
sis de base los estudios metaanalíticos no suelen ser indepen- 
dientes ya que un mismo estudio puede proporcionar varias 
estimaciones del TE: el supuesto de homocedasticidad raramen- 
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de investigación relacionados 


te se cumple ya que las variancias de los TE son inversamente 
proporcionales a sus tamaños muestrales. 


Tecnicas de acumulación de niveles de probabilidad 


Los primeros procedimientos estadísticos desarrollados para 
sintetizar cuantitativamente los resultados de un conjunto de 
estudios se deben, probablemente, a Fisher y Pearson en los 
años treinta, quienes desarrollan varias técnicas de acumulación 


de niveles de significación. 

Entre los más utilizados cabe destacar el método de Fisher, el 
método de Edgington, el método de Winer, el método de Stouf- 
fer, el método de Mosteller y Bush, el método de Tippett y el 


método Logit. 
Técnicas de integración del tamaño del efecto 


Las técnicas basadas en la combinación de los TE son más 
informativas que las basadas en los niveles de significación, ya 
que permiten formular inferencias acerca de la dirección y la 


magnitud de los efectos. 
Para un mayor detalle en torno a los procedimientos de 
integración en el análisis de resultados. consultar los textos 


citados en la “Introducción”. 

Mullen y Rosenthal!” han desarrollado unos programas de 
ordenador para contrastar homogeneidad y combinar resulta- 
dos. aunque el cálculo es tan sencillo que no es estrictamente ne- 


cesario. 
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Abstract 


DNA microarray experiments result in enormous amount of data, which need careful interpretation. Biplot approaches show 
simultaneous display of genes and samples in low-dimensional graphs and thus can be used to represent the relationships between 
genes and samples. There are several different types of biplots, and these methods need to be evaluated because each plot provides 
different result. 

In this paper, we review several variants of biplot methods such as principal component analysis biplot, factor analysis biplot, 
multidimensional scaling biplot and correspondence analysis biplot. We investigate the properties of these methods and compare 
their performances by analyzing various types of well-known gene expression data. We also suggest the supplementary data method 
as a tool for (1) classifying the previously unknown sample/gene to existing class, (11) analyzing mixture data and (111) presenting 
illustrative variables, etc. The usefulness of this approach for interpreting microarray data is demonstrated. 
© 2007 Elsevier B.V. All rights reserved. 


Keywords: Gene expression data; Biplot; Supplementary data; Principal component analysis; Factor analysis; Correspondence analysis; 
Multidimensional scaling 


1. Introduction 


DNA microarray technology has been advanced to the point that it is now possible to monitor gene expression 
levels on a genomic scale. Currently, two types of microarrays are in common use: 2-channel cDNA microarrays and 
high-density oligonucleotide microarrays chips such as Affymetrix chips. Every microarray gene experiments result in 
enormous amount of gene expression data, which need statistical considerations. 

Traditional clustering techniques such as hierarchical clustering, k-means clustering and self-organizing map have 
been applied to the analysis of gene expression data (cf. Eisen et al., 1998; Tamayo et al., 1999; Golub et al., 1999, etc.). 
It is useful to find gene/sample clusters with similar gene expression patterns for summarizing and interpreting the 
microarray data. However, it would be more effective if we represent this information by drawing a low-dimensional 
graph. Visualization of the gene expression data helps us to find and interpret the relationships between genes/samples 
and to detect outliers. Principal component analysis, often performed by singular value decomposition, has been 
explored as a method for visualizing large-scale expression data. Raychaudhuri et al. (2000) used PCA to analyze time 
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series yeast sporulation expression data. Similarly, Alter et al. (2000) and Holter et al. (2000) analyzed microarray 
data using SVD. On the other hand, Fellenberg et al. (2001) used correspondence analysis to visualize the relationship 
between genes and tissues. 

In this paper, we review several variants of biplot methods as the visualization tool for exploring gene expression data. 
Biplot method was originally suggested by Gabriel (1971) and there have been several variants proposed by subsequent 
researchers (cf. Gower and Hand, 1996). These approaches can show simultaneous display of observations and variables 
as well as represent the relationships between observations and those between variables in low-dimensional graphs. 
Here we use PCA (principal component analysis) biplot, FA (factor analysis) biplot, MDS (multidimensional scaling) 
biplot and CA (correspondence analysis) biplot. We investigate the properties of the resulting graphs and compare the 
performances of different methods. Also we consider the supplementary data analysis, which is presented by Lebart 
et al. (1984), for exploratory analysis of microarray data. Several application methods are proposed with illustration 
of simulated and real data. These methods are evaluated with four well-known data: leukemia data set of Golub et al. 
(1999), lymphoma data set of Alizadeh et al. (2000), colon cancer data set of Alon et al. (1999) and 60 cancer cell line 
of Ross et al. (2000). 


2. Principles of biplot methods in microarray data analysis 


The gene expression data on p genes forn mRNA samples may be summarized by ann x p matrix X = (x;;), where 
xij denotes the expression level of jth gene in ith mRNA sample. The expression levels might be either absolute (e.g. 
oligonucleotide arrays) or relative with respect to the expression levels of a suitably defined common reference sample 
(e.g. CDNA microarrays). Usually, the data are centered (mean zero) and/or standardized (mean zero, variance one) for 
each gene across the samples. 


2.1. Principal component analysis and factor analysis biplot 


The singular value decomposition of X is given by 
X = UDV’, 


where U and V aren x r and p x r matrix, respectively, each with orthonormal columns so that U'U = V’V = I,, 
D is ar x r diagonal matrix with elements 4; 242 È --- >2, in the diagonals, and r is rank of X. Let us define 
D* = diag(2%, .. . , 2%) and let G = UD” and H = VD'!~* where 0<a<1. Thus X can be factorized as 


X = UDV = GH’ 


for an x r matrix G and a p x r matrix H. And it can be shown that Xs) = Gs) 1 J provides the best possible 
rank s(<r) approximation to X, where G(s) and Hs) are the first s columns of G and H, respectively. One can obtain 
s-dimensional row (sample) and column (gene) plot by plotting G(s) and Hs), respectively (Gabriel, 1971). 

Different values of « lead to different geometries. If we choose a = 1, then Gis) = (4141,..., Asus) and As) = 
(v1,..., Us). And the Euclidean distance between two sample points in the plot represents the Euclidean distance in the 
complete set since XX” ~ G(s) Gt. Here the ith row of G(s), consists of the first s principal components for ith sample. 
We call it principal component analysis (PCA) biplot. On the other hand, if we choose «= 0 and take the first s columns 
of G and H, we have the coordinates for s-dimensional plot. We call this factor analysis (FA) biplot. In FA biplot, cosine 
between gene points is proportional to the covariance or correlation between genes because X'X ~ H(s)H ( 5) In both 
plots, by superimposing sample and gene plot, we can recover original data since X ~ G(s) H ( s) 


2.2. Correspondence analysis biplot 


CA was originally developed for 2-way contingency tables (Greenacre and Hastie, 1987). To analyze using CA, the 
data should be positive number. Thus it is necessary to shift the data additively to be a positive range after centering 
and standardization before analysis. Now let X = (x;;) be the data matrix after shifting, x;+ and x+}; denote sum of 
the ith row and jth column, respectively, and xy+ be the grand total of X. Define F = (fij) where fij = xjj/x++. 
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The problem can be represented in the form of singular value decomposition as 
D, (F —rc')D, /* = UD,V’, 


wherer=(fi+,---, Y O or Ste), fit =}; fiji, f+j =}; fij, Dr =diag(r), De =diag(c). U and V are 
the column orthogonal matrices so that U'U = V'V = 1, and D} is a diagonal matrix whose elements are the singular 
values of D, = F — rc) De 1/2 We use the first s columns of the matrix 


A=D, UD; and B=D," VD; 


as s-dimensional sample and gene coordinates, respectively. The squared distance between profiles a; and aj is 
given by 


If. IV? 
d* (aj, ay) = (aj — ay) Do" (ai — aj) = Y ae eT F as 
+j 


J 


where aj = (Xj1,..., Xip) /xi+. It is called y*-distance. In this case, the distances between the points in the plot do not 
approximate Euclidean distance but approximate chi-squared distance. And we interpret that the genes and samples 
with similar position correspond to each other. 


2.3. Multidimensional scaling biplot 


The object of MDS is positioning of the observations into a map such that the interim proximities matched the 
original dissimilarities (or similarities). There are two essentially different approaches: metric and non-metric scaling 
methods, each of which has many variants. 

Let E = (eij) be squared distance matrix between the rows of X, and define B as 


B=—4HEH’, 
where H = 1, — n”! J, and Jn = 1n 1”, The classical metric MDS can be obtained by spectral decomposition of B: 
B=VD,V', 


where V'V = /, and D} is ar x r diagonal matrix with elements 2; >/2 > --- >2, in the diagonals, and r is rank of B 
(Mardia et al., 1979). We can get the s-dimensional sample plot by plotting the first s columns of VD; a Similarly, we 
can get s- dimensional gene plot for X after defining distance matrix between the columns of X. If we take E as squared 
Euclidean distance matrix, then the s-dimensional solution gives the same results as PCA biplot. The metric MDS use 
the actual magnitudes of the original distances to obtain geometric representation. 

On the other hand, it is possible to arrange the n observations in a low-dimensional coordinate system using only 
the rank order of n(n — 1)/2 original distances and not their magnitudes. When only this ordinal information is used 
to obtain a geometric representation, the process is called non-metric MDS. 


2.4. Interpretation 


The distance between row points approximates Euclidean distance of samples for PCA biplot whereas it approximates 
Mahalanobis distance between samples for FA biplot. From column plot of FA biplot, we can catch the correlation 
between genes by the cosine of gene vectors, and the coordinates of column points in PCA biplot represent the 
coefficients for the principal component. The PCA biplot and FA biplot give similar information, but then PCA biplot 
would be more appropriate when we are more interested in the relationship between samples, whereas FA biplot would 
be more useful if we want to focus on the relationship between genes. For CA biplot, distance between points is 
the approximated chi-squared distance in both row plot and column plot. To apply MDS biplot, we have to produce 
the dissimilarity matrix. For example, we can define the Euclidean distance as a measure of dissimilarity, and then the 
distance between the points shows the Euclidean distance. 
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Table 1 
Interpretations in various biplot methods 


Method Plot 
Sample Gene Superimposed 
PCA biplot Distance between points: Coordinates: Projection: original data 
Euclidean distance coefficient of linear 
combination 
FA biplot Distance between points: Angle between vectors: Projection: original data 
Mahalanobis distance correlation between genes 
CA biplot Distance between points: Distance between points: Matching position: 
chi-squared distance chi-squared distance related genes and samples 
MDS biplot Distance between points: Distance between points: dissimilarity 
dissimilarity dissimilarity — 
(e.g. Euclidean distance) (e.g. Euclidean distance) 


For PCA biplot and FA biplot, the projection of row vector and column vector approximates the original data, and 
we can recover the original data by superimposing the row (samples) and column (genes) plot. In CA biplot, we can 
interpret the association of genes and samples. For MDS biplot, gene plot and sample plot are produced separately, and 
superimposing two plots is not meaningful. Table 1 shows the summary of these properties. 


3. Supplementary data analysis 


It often happens, in practice, that additional information is available that might be added to the original data. Consider 
we have ns additional samples and let Z+ = (z+i;) be the added data matrix with ns rows and p columns. For PCA 
biplot and FA biplot, supplementary data z+; ; should be transformed into 


X4ij = Bij — Xp), 
if the original data x;; are centered. If the original data are centered and standardized, then transformation 
X+ij = Brij — X;)/5j 


should be made. Here x; and s; are the mean and standard deviation of jth variable, respectively. In PCA biplot, from 
XV = (UDV')V = UD, s-dimensional coordinates of additional ns observations can be obtained by X+ Vs), where 
Xy =(x4;;) is the transformed data matrix. Similarly, in FA biplot, we plot the first s columns of X +U for Ps additional 
variables, where X~ is the transformed added data matrix with n rows and p; columns (Lebart et al., 1984). 

On the other hand, the supplementary data coordinates for CA are given by 


a= BD, * and b= ex AD, 
where x, and x* is a new row and column, respectively. It comes from the relationship 
A=D;'XBD,' and B= D}'XAD7' 


(Gower and Hand, 1996). 

This supplementary data method can be applied to microarray experiments in various situations such as (1) classifying 
the previously unknown sample/gene to existing class, (11) analyzing the mixture data, (111) presenting illustrative 
variables, (iv) visualization of repeated data, and (v) positioning of outliers, etc. This method can be used to classify 
unknown genes or samples to the known category with similar expression patterns. Sometimes we have the data 
obtained from different experimental circumstances, and thus they are not homogeneous, and also we might have some 
additional variables but those are of a somewhat different nature. For example, we may wish to add prognostic factors 
such as sex or clinical status to gene expression data. Since the data being analyzed should be homogeneous, it is proper 
to use supplementary data analysis instead of conducting biplot analysis for whole data. It is also applied for repeated 
or longitudinal experiments using same samples and genes, and makes interpretation easier and clearer. On the other 
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hand, if we have several outliers that can distort the whole structure, we can construct the biplot without these samples 
and then position the outliers as if they are supplementary data. We will examine the usefulness of this method with 
both simulated and real microarray data. 


4. Data analysis 


The biplot methods described above are applied to four well-known data sets: the leukemia data set, the lymphoma 
data set, the colon cancer data set, and the 60 cancer cell line data set. The gene expression data on p genes for n 
mRNA samples may be summarized by ann x p matrix X = (x;;), where x;; denotes the expression level of jth gene 
in ith mRNA sample. The data were centered for each gene across the samples, but did not need to be standardized to 
have variance 1 because the measurement scales of the variables in each data are the same. For imputing the missing 
data, we use k-nearest neighbor algorithm with k = 5, in which the neighbors are the genes and the distance between 
neighbors is based on their correlation (cf. Troyanskaya et al., 2001). To analyze the data by CA, the data should 
be positive number, and thus we shift the data additively to be a positive range after centering. Since metric MDS 
biplot with Euclidean distance gives the same results as PCA biplot, we draw non-metric MDS plot rather than metric 
MDS plot. 
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Fig. 1. Leukemia data—sample plot: (a) PCA biplot; (b) CA biplot; (c) MDS biplot. 
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Fig. 2. Lymphoma data—sample plot: (a) PCA biplot; (b) CA biplot; (c) MDS biplot. 


4.1. Data sets 


Leukemia data: Leukemia data set composed of 3571 gene expressions in three classes of leukemia: 38 cases 
of B-cell acute lymphoblastic leukemia (ALL), 9 cases of T-cell ALL and 25 cases of acute myeloid leukemia 
(AML). Gene expression levels were measured using Affymetrix high-density oligonucleotide arrays (cf. Golub et al., 
1999). The data were obtained after preprocessing described in Dudoit et al. (2002). The data can be obtained from 
http://www.genome.wi.mit.edu/MPR. 

Lymphoma data: This data set comes from a study of gene expression of three prevalent adult lymphoid malignancies: 
B-cell chronic lymphocytic leukemia (B-CLL), follicular lymphoma (FL) and diffuse large B-cell lymphoma (DLCL). 
Among 96 samples, we took 62 samples with 4026 genes in three classes (11 cases of B-CLL, 9 cases of FL, and 42 
cases of DLCL). The data matrix consists of the base 2 logarithm of the Cy5/Cy3 fluorescence ratio for gene j in mRNA 
sample i (cf. Alizadeh et al., 2000). The data can be obtained from http://genome-www.stanford.edu/lymphoma. 

Colon cancer data: This data set comes from a gene expression study of 40 tumor and 22 normal colon tissue 
samples, which were analyzed with an Affymetrix oligonucleotide arrays complementary to more than 6500 human 
genes. Following Alon et al. (1999), we chose to work with only 2000 genes of highest minimal intensity over the 
samples. The data can be downloaded from http://www.weizmann.ac.il/mcb/UriAlon. 
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Fig. 3. NCI60 data—sample plot: (a) PCA biplot; (b) CA biplot; (c) MDS biplot. 


NCI 60 data: This data set was produced by The National Cancer Institute’s anti-cancer drug screen project. The 
cell lines were derived from various tumor tissues: 7 breast, 5 central nervous system (CNS), 7 colon, 6 leukemia, 8 
melanoma, 9 non-small cell lung carcinoma (NSCLC), 6 ovarian, 2 prostate, 9 renal and 1 unknown. The full data set 
consist of 60 samples and 9703 genes, and we use 1375 genes (Ross et al., 2000). It was studied using cDNA microarrays 
and the data matrix consists of base 2 logarithm of the Cy5/Cy3 fluorescence ratio. The data can be obtained from 
http://genome-www.stanford.edu/nci60. 


4.2. Analysis using biplots 


Sample plot: In sample plot, two nearly located points show that they have similar gene profiles. It shows the 
relationship between samples and also separates different types of samples. For leukemia data, the first axis of sample 
plot of PCA biplot and CA biplot separate ALL and AML very well in 2-dimensional plot (Fig. 1(a) and (b)). And 
T-cell ALL samples are grouped near the origin than B-cell ALL samples. In MDS plot, however, the samples are more 
widely spread and thus we cannot distinguish each group (Fig. 1(c)). For sample plot of Lymphoma data, three classes 
are clearly separated in all the biplots (Fig. 2), though the points in MDS plot tend to be dispersed than the others. The 
first axis separates DLCL cells and the others, and the second axis separates FL cells and CLL cells. 
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Fig. 4. Colon data—sample plot: (a) PCA biplot; (b) CA biplot; (c) MDS biplot. 


For NCI60 data, colon (CO), leukemia (LE), CNS (CN) and melanoma (ME) cells are clustered, respectively, but 
breast cancer cells (BR) are scattered in PCA biplot (Fig. 3). This plot gives similar results with the dendrogram showing 
average-linkage hierarchical clustering from Ross et al. (2000). The CA biplot gives the similar results, but the MDS 
plots cannot separate the clusters. 

In PCA sample plot and CA biplot of colon data, the second axis separates tumor cells and normal cells well except 
for several cells such as T30, T33, T36, T37 and N8. But the MDS plots cannot separate samples and clusters (Fig. 4). 

Sample—Gene plot: For both PCA biplot and FA biplot, we can see the association between genes and samples by 
superimposing row and column plot. The x;; value is big if the jth gene vector lies in the similar direction to the ith 
sample vector, and the x;; value is close to zero if the jth gene vector is nearly orthogonal. For example, the genes 
numbered 1—4 in Fig. 5 have large values for DLCL cells such as DLCLO002 and DLCLO0026. Alizadeh et al. (2000) 
defined these genes as “lymph node” signature genes. The genes numbered 5-6 lie in the similar direction to FL cells 
such as FL10 and FL11, but are nearly orthogonal to CLL cells such as CLL71 and CLL68. It means that these genes are 
highly expressed in FL cells but have small expression values in CLL cells, and thus they play a role of separating FL 
and CLL cells. On the other hand, the genes numbered 7-8 are positively related with FL cells and the genes numbered 
9-10 are closely related with CLL samples. 

We can also interpret the relationships between the genes and the samples from CA biplots. The genes and the 
samples with similar position are closely related with each other. For example, Fig. 6 shows the plot for CA of leukemia 
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Fig. 5. PCA biplot of lymphoma data. 





Fig. 6. CA biplot of leukemia data. 


data, and the genes plotted on the right side are related with ALL cells and the genes plotted on the left side are related 
with AML cells. 

Gene plot: For the gene plot of PCA biplot, column coordinates are the coefficients of the variables for the principle 
components. But for FA biplot, cosines of the angles between column vectors represent covariance or correlations 
between genes approximately, and thus we can interpret that two genes that lie in the similar direction have high- 
positive correlation. For example, in Fig. 7(a), n1016 has high-positive correlation with n1360 (r = 0.79), n1354 
(r = 0.81), n239 (r = 0.79), and they are in the similar direction from the origin. By superimposing sample plot in 
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Fig. 7. FA biplot of NCI60 data-gene plot: (a) gene plot; (b) sample plot. 
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Fig. 8. Simulated supplementary data analysis in PCA biplot: (a) leukemia data; (b) lymphoma data; (c) NCI60 data; (d) colon data. 
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Fig. 7(b), they seem to be closely related with colon samples (CO). On the other hand, we can see that n1016 has 
high-negative correlation with n318 (r = —0.61), n1212 (r = —0.60), n326 (r = —0.57), and they lie in the opposite 
direction in the graph. 


4.3. Supplementary data analysis 


The supplementary data method can be applied in various situations. We now show three kinds of cases among them 
as examples. 

Case 1 (classification of unknown samples): Supplementary data method can be used to classify unknown genes or 
samples to the known category with similar expression patterns by treating the unknown genes or samples as additional 
data. To examine the prediction effectiveness of the supplementary data plot method, we randomly chose 80% of the 
original data and drew a PCA sample plot. And then we added 20% of the data as a new data. In Fig. 8, the original 
data are represented by solid diagram whereas the empty one represents the added cells. The shape (color) represents 
their genuine group. We can see that the additional data are well classified for all the data sets, and plotting the new 
individuals by supplementary data method is helpful to classify the new samples to the known category. It can also be 
applied to discriminate new genes to known clusters. 

Case 2 (analysis of mixed samples): If we have to handle the mixed data produced from different circumstances, 
we can apply supplementary data method to overcome the inhomogeneous property. For example, the colon data 
are the mixture of matched and unmatched samples. Among 62 samples, 44 (22 pair) are matched samples of tu- 
mor cell and normal cell, and 18 are unmatched tumor cell. In this case, instead of analyzing all the data at the 
same time, we can use supplementary data analysis. Fig. 9(a) shows sample plot of PCA biplot using the matched 
samples only. Here, the blue triangle represents the normal cell, and the solid red circle represents the tumor cell. 
We drew lines between the several matched samples, and we can find that matched samples tend to be positioned 
closely to each other. Note that we could not catch it from Fig. 4, which is the plot of all the data. And then 
we added the unmatched samples as the supplementary data. The unmatched samples are represented by empty 
black circle (Fig. 9(b)). 
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Fig. 9. Supplementary data analysis of matched and unmatched samples from colon data: (a) PCA biplot for matched samples only; (b) supplementary 
plot adding unmatched samples. 
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Fig. 10. Supplementary data analysis of early and late protocol samples from colon data: (a) sample plot; (b) gene plot. 


On the other hand, there was a change in the protocol for colon data, after the first 11 samples of matched pair data 
are obtained. And thus we obtained 22 samples by the early protocol and 40 samples by the late protocol. We drew the 
PCA biplot using the samples adopted by the late protocol first, and then projected the samples adopted by the early 
protocol onto the map (Fig. 10). The solid one represents the late protocol samples and the empty one represents the 
early protocol samples. Also the red circle represents the tumor cell and the blue triangle represents the normal cells. 
In this case, the normal cells tend to lie in the left side of the first axis (Fig. 10(a)), and the genes with relatively higher 
value in normal samples may lie in the left side of the first axis in gene plot. To check this, we marked top 100 genes 
with high average in normal samples and tumor samples, respectively (Fig. 10(b)). As expected, we can find the genes 
with high average in tumor samples (marked as “x”) lie in the right side whereas the genes with high average in normal 
samples (marked as “o”) lie in the left side. On the other hand, the tumor cells are spread out and thus they seem to 
have larger variance compared to the normal cells. 

The normal samples proceeded with the early protocol (empty blue triangle) are separated with the late protocol 
normal samples (solid blue triangle). The early protocol tumor samples also tend to be closer to the origin than the late 
protocol tumor samples that are located in the left side of the graph, though it is not clearly distinct. Because the early 
protocol samples are grouped together near the origin, we may interpret that the variations between the tumor cell and 
the normal cell in the early protocol are smaller than those in the late protocol. 

In this example, the experiments can be conducted at two stages. If we have repeated or longitudinal experiment, 
we can catch the changes in the expression patterns according to the time by constructing the biplot with first data and 
then by projecting the sequential data sets repeatedly on the first plot. 

Case 3 (presentation of illustrative variables): The illustrative variables can be represented by the supplementary 
data analysis of the gene plot. For example, to represent the early/late protocol and normal/tumor cell, produce n x 2 
added data matrix with two new variable x and i . Here, a = | for the early protocol and A = —1 for the late 
protocol. Similarly, a; = 1 for the normal cell and Xo = —1 for the tumor cell. Then we can apply the supplementary 
data analysis of FA biplot. Fig. 11(a) shows the plot of two added variable: a (normal) and O (early). Thus we can 
interpret that the genes which lie in the similar direction to the black line (NORMAL) tend to be up-regulated in the 
normal cell, whereas the genes which lie in the opposite direction tend to be up-regulated in the tumor cell. Also the 
genes which lie in the red line direction (EARLY) tend to be up-regulated in the early protocol cells, whereas the genes 
which lie in the opposite side tend to be up-regulated in the late protocol cells. Fig. 11(b) shows a snapshot of selecting 
genes using SAS/JMP. We can identify each gene in the graph and also obtain the list of interesting genes. For example, 
if we select a set of genes by using lasso or brush tool, then the data for the genes are checked automatically. Also, 
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Fig. 11. Supplementary data analysis with illustrative variables in FA biplot of colon data: (a) gene plot with illustrative variables; (b) gene identification 
using SAS/JMP. 


we can label the selected genes. Fig. 11(b) shows the process to label the genes (upper side in the graph) and draw the 
areas (lower side in the graph). 


5. Conclusion and discussion 


Application of the several biplots to the publicly available data reveals that the biplot methods can be successful for 
classifying the samples and exploring the relationship between the genes as well as for overall summarization of the 
microarray data. While the partitioning clustering methods such as k-means clustering and SOM divided all the data 
into one of the pre-specified number of subsets, biplot methods enable us to explore the overall aspects of the data by 
visually inspecting the graph. It is also useful for displaying the genes and the samples simultaneously, and thus the 
relationship between the genes and the samples can be easily shown in the plot. 

Major findings can be summarized as follows. Both PCA and FA biplot perform well for classifying individual, 
and biplot shows the similar results. The non-metric MDS biplot with Euclidian distance tends to be spread out. From 
the viewpoint of discriminating the clusters, non-metric MDS biplot performs poorly compared to the other methods 
for separating clusters, even if sometimes this property is something useful to see the intra-cluster in detail. However, 
another dissimilarity measure may give the different plots. 

We have also shown that the supplementary data analysis might be a useful tool for microarray data analysis in many 
situations, and thus we strongly recommend to use it. Plotting new samples or genes using the supplementary data 
method is quite helpful to classify the unknown individual. Moreover it can be applied to deal with the mixture data or 
outliers. It is also useful to present the demographic variables or the repeated data. 

Biplot combined with some partitioning clustering methods such as k-means clustering and SOM can give more 
meaningful information. One of shortages of partitioning clustering methods is that they do not provide the overall 
information on the cluster but give information on which clusters the genes belong to. This deterministic nature of 
partitioning clustering methods can be modified by biplot. Fig. 12(a) shows PCA gene plot with k-means clustering 
with k = 10 for NCI60 data and Fig. 12(b) shows PCA sample plot for lymphoma data when k = 3. This plot shows 
the clustering results graphically. Here, each color shows each cluster, and we can see the k-means clustering gives 
different suggestions. The FL and CLL cells are clustered in one group (red circle), and DLCL cells are divided into 
two different clusters (black triangle and blue square). Since we can compare the results by k-means clustering and 
biplot, these plots can be more helpful to understand the data. 
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Fig. 12. Biplot with k-means clustering: (a) PCA gene plot of NCI60 data (k = 10); (b) PCA sample plot of lymphoma data (k = 3). 
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Fig. 13. Gene plot of lymphoma data with several gene selection methods: (a) BSS/WSS criterion; (b) PAM; (c) SAM. 
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We have used several gene selection methods to select 50 significantly differentially expressed genes. In Fig. 13(a), 
we have selected significantly differentially expressed genes based on BSS/WSS criterion, which was used in Dudoit 
et al. (2002). We have also used the soft thresholding methods as in PAM (Tibshirani et al., 2002) and in SAM (Tusher 
et al., 2001). The selected genes are plotted as red empty circles. As shown in the figure, by applying the biplot method 
and gene selection method simultaneously, we can easily identify the significantly differentially expressed genes and 
investigate the relationship between the selected genes simultaneously. It can be a meaningful initial step to explore 
the gene expression data. Moreover, if we apply biplot methods to the selected gene subset instead of whole genes, we 
could catch the relationships between the samples and the genes more clearly. In this study, we define the samples as 
the observations and the genes as the variables. If we apply the methods to the transposed data, we will get the other 
types of plots and thus the properties of the plot will be changed. 

In this study, we have used SAS/IML procedure to obtain the coordinates of the points. For automatic system for 
pointing out interesting genes/samples, a programming using SAS/JMP or JAVA will be needed. 
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